ChatGPT 的强壮才能是与生俱来的吗?它有哪些短板?未来它会替代搜索引擎吗?它的呈现给咱们的 AI 研讨带来了哪些启示?针对这些问题,几位 AI 研讨者展开了深化对谈。
2022 年的最后一个月,OpenAI 用一个爆款对话机器人 —— ChatGPT 回应了人们一整年的等候,尽管它并不是咱们期盼已久的 GPT-4。
用过 ChatGPT 的人都能体会到,它是一个真实的「六边形兵士」:不仅能拿来谈天、搜索、做翻译,还能写故事、写代码、debug,甚至开发小游戏、参加美国高考…… 有人戏称,从此以后人工智能模型只要两类 —— ChatGPT 和其他。
因为才能过于冷艳,ChatGPT 仅上线 5 天就招引了 100 万用户。许多人大胆猜测,照这个趋势发展下去,ChatGPT 很快就能替代 Google 等搜索引擎和 Stack Overflow 等编程问答社区了。
不过, ChatGPT 生成的答案有许多是错的,并且不仔细看都看不出来,这会造成问题答复鱼目混珠的状况。这种「很强壮但也很简单犯错」的属性给了外界很大的评论空间,咱们都想知道:
-
ChatGPT 的这种强壮才能是哪里来的?
-
ChatGPT 还有哪些短板?
-
未来它会替代搜索引擎吗?
-
它的呈现给咱们的 AI 研讨带来了哪些启示?
在小红书技能团队举行的第六期「REDtech 来了」技能直播中,NLP 范畴专家、加州大学圣巴巴拉分校助理教授李磊与小红书技能副总裁张雷以及小红书社区部多媒体智能算法负责人张德兵展开了对谈,就 ChatGPT 的抢手问题进行了沟通和答复。
李磊曾先下一任百度美国深度学习实验室少帅科学家、字节跳动人工智能实验室高档总监。他在机器学习、数据挖掘和自然语言处理范畴于世界尖端学术会议发表论文 100 余篇,并曾获 2021 ACL 最佳论文奖。2017 年,李磊在 AI 写作机器人 Xiaomingbot 上所做的作业曾获吴文俊人工智能技能发明二等奖。Xiaomingbot 也具有强壮的内容了解和文本发明才能,能流畅地进行体育赛事的播报和财经新闻的写作。
小红书技能副总裁张雷,曾任 IBM 深度问答(DeepQA)项目中国技能负责人,在问答机器人、搜索广告 CTR 机器学习算法等范畴都有丰厚的开发经历。张德兵曾是格灵深瞳首席科学家,带领团队取得包含世界威望人脸识别竞赛 FRVT 世界冠军在内的多项学术竞赛冠军。
三位嘉宾的评论既重视到了 ChatGPT 当下的才能与问题,一同也就未来的趋势和远景进行了展望。鄙人文中,咱们对沟通的内容进行了梳理和总结。
OpenAI 的联合创始人 Greg Brockman 最近发推特表明,2023 年将使 2022 年看起来是 AI 进步和选用的烦闷之年。
ChatGPT 的强壮才能来自于哪儿?
和试用 ChatGPT 的许多人相同,三位嘉宾也都对 ChatGPT 的强壮才能印象深化。
其间,张德兵举了一个让 ChatGPT 扮演 Linux Terminal 的比方:告知 ChatGPT 大约的机器配置,然后在此基础上让它执行一些指令,成果发现,ChatGPT 可以记住很长的操作历史,前后逻辑关系十分共同(比方你往一个文件里边写入几行字符,之后让它显现这个文件里边到底被写入了哪些字符,它都能显现出来)。
DeepMind 研讨者 Jonas Degrave 让 ChatGPT 扮演 Linux Terminal 的比方。
这一成果让张德兵等人不由怀疑,ChatGPT 是不是自己在后台开了一个 terminal 诈骗用户?所以他们进行了一些测验:让 ChatGPT 执行一些复杂度十分高的指令(比方两重 for 循环,每一个 for 循环都有 10 亿次),假如 ChatGPT 真的开了一个 terminal,它就会卡一段时间。成果出人意料:ChatGPT 很快就跳过了这个过程,显现出了这个命令之后的下一个成果。这让张德兵等人意识到,ChatGPT 的确大约了解了整个 demo 的逻辑,它是有必定的「考虑」才能的。
那么,这种强壮的才能是从哪里来的呢?张雷提出了两种假定。一种假定以为,这种才能自身便是内置在大模型当中的,只是咱们之前没有恰当地释放它;另一种假定以为,大模型的内置才能其实没有那么强,需要咱们凭借人类力气对它做出一些调整。
张德兵和李磊都赞同第一种假定。因为,咱们可以直观地看到,练习和微调大模型所需的数据量存在着几个数量级的差异,在 GPT-3 及其之后的模型所用到的「预练习 + 提示(Prompting)」范式中,这种数据量的差异就更明显了。并且,它们所用到的 in-context learning 甚至不需要更新模型参数,仅需要把少数标示样本放在输入文本的上下文中即可诱导模型输出答案。这似乎可以阐明,ChatGPT 的强壮才能的确是内生的。
传统 fine-tune 办法与 GPT-3 的 in-context learning 办法对比。
此外,ChatGPT 的强壮还依赖于一项秘密武器 —— 一种名为 RLHF(人类反应强化学习)的练习办法。
根据 OpenAI 官方发布的资料,这种练习办法可以分为三个阶段 [1]:
-
冷启动阶段的监督战略模型:从测验用户提交的 prompt 中随机抽取一批,靠专业的标示人员,给出指定 prompt 的高质量答案,然后用这些人工标示好的 < prompt,answer > 数据来 Fine-tune GPT 3.5 模型,从而让 GPT 3.5 初步具有了解指令中包含的意图的才能;
-
练习报答模型(Reward Model,RM):随机抽样一批用户提交的 prompt,然后使用第一阶段 Fine-tune 好的冷启动模型为每个 prompt 生成 K 个不同的答复,再让标示人员对 K 个成果进行排序,以此作为练习数据,通过 pair-wise learning to rank 模式来练习报答模型;
-
选用强化学习来增强预练习模型的才能:使用上一阶段学好的 RM 模型,靠 RM 打分成果来更新预练习模型参数。
这三个阶段的其间两个都用到了人工标示,也便是 RLHF 中所谓的「人类反应」。
李磊表明,这一办法所发生的成果是出人意料的。在之前做机器翻译研讨的时分,他们一般会用 BLEU 分数(一种快速、廉价且语言独立的自动机器翻译评价办法,与人类判别有很强的相关性)来辅导模型,在模型较小的时分,这种办法作用显著,但跟着模型越来越大,它的作用却在不断减弱。
因而,他们从中得到的经历是:凭借反应来练习 GPT-3 这种超大模型理论上不会得到太大提高。可是,ChatGPT 的冷艳作用却推翻了这一经历。 李磊以为,这是 ChatGPT 所带给咱们的震撼之处,提醒咱们要改动研讨观念。
ChatGPT 有哪些短板?
不过,震撼之余,三位嘉宾也指出了 ChatGPT 当前的一些短板。
首要,正如前面所说,它生成的答案有些还不够准确,「一本正经胡说八道」的状况还会时不时地呈现,并且不太擅长逻辑推理。
其次,像 ChatGPT 这样的大模型要想实际使用,所需的布置成本是相当高的。并且现在没有明显的依据表明,把它们的规划缩小一两个数量级,模型还能坚持如此强壮的才能。「假如只能在一个很大规划体量下才能坚持这样冷艳的才能,它离使用还比较远, 」张德兵说到。
最后,ChatGPT 在一些特定使命(比方翻译)上或许并没有到达 SOTA。尽管 ChatGPT 的 API 还没有放出来,咱们无法得知它在一些 benchmark 上的才能,但李磊的学生在测验 GPT-3 的过程中发现,尽管 GPT-3 可以超卓地完成翻译使命,但它比现在单独练习的双语模型仍是要差一些(BLEU 分数差 5 到 10 个点)。据此,李磊推测,ChatGPT 在某些 benchmark 上并不见得会到达 SOTA,甚至或许和 SOTA 还有一些距离。
ChatGPT 能否替代 Google 等搜索引擎?对 AI 研讨有何启示?
在关于 ChatGPT 的各种评论中,「能否替代搜索引擎」这个话题或许是最火的一个。近日,《纽约时报》报道称,ChatGPT 的火爆让谷歌如临大敌,他们忧虑,假如咱们都去用 ChatGPT 这样的谈天机器人,就没有人会点击带有广告的谷歌链接了(2021 年,谷歌广告收入占总收入的 81.4%)。在《纽约时报》取得的一份备忘录和录音中,谷歌首席执行官 Sundar Pichai 一直在开会,以「确认谷歌的人工智能战略」,并「推翻了公司内部许多团队的作业,以应对 ChatGPT 带来的要挟」[2]。
对此,李磊以为,现在就说替代或许还有点早。首要,新技能的火爆和商业成功之间往往有很深的 gap,早些年,Google Glass 也说自己将成为新一代的交互方法,但至今未能实现许诺。其次,ChatGPT 在一些问答使命上的表现的确比搜索引擎好,但搜索引擎所承载的需求并不局限于这些使命。因而,他以为,咱们应该根据 ChatGPT 自身的优势去做产品,而不必定要瞄准现有的老练产品去替代它,后者是一件很困难的工作。
许多 AI 研讨者以为,ChatGPT 与搜索引擎是可以放在一同作业的,二者并非替代与被替代的关系,就像最近抢手的「youChat」所展示的那样。
张德兵也持有相似的看法,以为 ChatGPT 短期内替代搜索引擎不太现实,究竟它还有许多问题,比方不能访问互联网资源,会发生误导信息。此外,它的才能能否泛化到多模态的搜索场景至今还不明晰。
但不可否认,ChatGPT 的呈现的确给了 AI 研讨人员许多启示。
李磊指出,第一个值得注意的点是 in-context learning 的才能。在之前的许多研讨中,咱们都疏忽了怎么通过某种方法将既有模型的潜力挖掘出来(比方机器翻译模型就只是用来做翻译,而没有尝试给它一些提示看看能不能生成更好的翻译),但 GPT-3、ChatGPT 做到了。因而李磊就在想,咱们能不能把以往所有的模型都改成这种 in-context learning 的形式,给它们一些文本、图像或者其他形式的提示,让它们把才能都发挥出来,这将是一个十分有潜力的研讨方向。
第二个值得注意的点是在 ChatGPT 中发挥重要作用的人类反应。李磊提到,谷歌搜索的成功实际上也很大程度上是因为它很简单取得人类反应(关于搜出的成果是否点击)。ChatGPT 通过请人写答案、给模型生成的答案排序的方法取得了许多人类反应,但这种获取方法比较昂贵(近来有一些研讨现已指出了这一问题)。因而,李磊以为,未来咱们要考虑的是怎么低成本、高效地获取许多人类反应。
小红书「种草」新技能
关于在小红书从事多模态智能发明研讨的张德兵来说,ChatGPT 也供给了许多启示。
首要,该模型直观地展示了 NLP 大模型比较小模型在复杂多轮对话、不同 query 的泛化性、思想链 (Chain of Thought) 等各个场景的大幅提高,且相关才能现在在小模型上是不具有的。
张德兵以为,NLP 大模型的这些相关才能或许也可以在跨模态生成中进行尝试和验证。现在,跨模态模型在模型规划上比较 GPT-3、ChatGPT 还有显著的距离,且在跨模态场景中也有许多作业展示了 NLP 分支表达才能的提高,会对视觉生成成果的精密程度有很大协助。假如跨模态模型的规划可以进一步扩大,模型才能的「出现」或许是一件值得等候的工作。
其次,像初代 GPT-3 相同,现在多模态的生成成果在挑选的状况下往往能看到很不错的冷艳成果,但生成可控性还有很大的提高空间。ChatGPT 似乎在必定程度上改善了这一问题,生成的东西愈加符合人类心意。因而,张德兵指出,跨模态的生成或许可以参考 ChatGPT 的许多思路来进行尝试,比方基于优质数据的微调、强化学习等等。
这些研讨成果将在小红书的多项业务中得到使用,包含电商等场景的智能客服,搜索场景下对用户 query、对用户笔记更准确的了解,智能发明场景下对用户资料进行智能配乐、案牍生成、跨模态的转换和生成发明等。在各个场景中,使用的深度和广度也会跟着模型大小的压缩、模型精度的继续提高而继续增强和扩展。
小红书作为一家有 2 亿月活用户的 UGC 社区,跟着社区内容的丰厚和多元,发明出了十分巨大的多模态数据集体量。在信息检索、信息引荐、信息了解,特别在智能发明相关技能,以及底层多模态学习、统一表征学习等方向上都积累了海量的真实数据,一同也为这些范畴的实践立异供给了独特且广阔的落地场景。
小红书仍是当下为数不多的仍然坚持强劲增长势头的互联网产品之一,得益于图文与视频内容偏重的产品形状,小红书在多模态、音视频、搜广推范畴将面对和发明许多前沿的使用问题。这也招引了许多技能人才的参加,小红书技能团队中,许多成员都拥有谷歌、Facebook、BAT 等海内外一线大厂的作业经历。
这些技能挑战也将给予技能人们在新的范畴完好参与甚至扮演重要人物的机会。未来小红书技能团队所能供给的人才成长空间,比以往任何时分都愈加广阔,也正在等候更多优异 AI 技能人才的参加。
一同,小红书也十分重视与业界的沟通。「REDtech 来了」便是由小红书技能团队打造的一档面向职业前沿的技能直播栏目。今年以来,小红书技能团队现已与多模态、NLP、机器学习、引荐算法等范畴的领军人物、专家学者展开深化的沟通对话,力求从学界科研与小红书实战经历的双重视角探索和评论有价值的技能问题。