[博客翻译]大型语言模型的涌现能力是一种幻觉


原文地址:https://www.wired.com/story/how-quickly-do-large-language-models-learn-unexpected-skills/


斯蒂芬·奥内斯科学3月24日,2024年08:00大型语言模型的涌现能力可能是个幻象在一项名为“超越模仿游戏基准”(Beyond the Imitation Game benchmark, 或 BIG-bench)的项目中,450位研究人员编纂了一份包含204项任务的列表,旨在测试大型语言模型(如ChatGPT聊天机器人)的能力。在大多数任务中,随着模型的规模扩大,性能通常会稳定提升——模型越大,表现越好。但在其他任务中,能力的提升并不平稳。一段时间内性能保持在接近零的水平,然后突然提升。其他研究也发现了类似的跳跃性能力提升。作者将这种行为描述为“突破”行为;其他研究者将其类比为物理学中的相变,比如液态水结冰的过程。2022年8月发表的一篇论文指出,这些行为不仅令人惊讶,而且不可预测,它们应该影响关于AI安全、潜力和风险的讨论。他们将这些能力称为“涌现”,这个词描述的是系统达到高度复杂性后才会出现的集体行为。

然而,事情可能没那么简单。斯坦福大学的研究团队提出,大型语言模型突然显现的能力实际上是研究人员衡量模型性能方式的结果。他们认为,这些能力既不是不可预测的,也不是突然出现的。“这种转变比人们想象的更可预测。”计算机科学家Sanmi Koyejo表示,他是该论文的资深作者。“关于涌现的强烈说法与其说与模型的实际行为有关,不如说与我们选择的衡量方式有关。”

我们之所以现在才观察到并研究这种行为,是因为模型的规模已经变得如此之大。大型语言模型通过分析包含来自在线资源(如书籍、网络搜索和维基百科)的大量文本数据来训练,寻找经常一起出现的单词之间的联系。模型的规模通常用参数来衡量,大致相当于单词连接的方式数量。参数越多,大型语言模型能够发现的连接就越多。GPT-2有15亿个参数,而驱动ChatGPT的GPT-3.5使用了3500亿个参数。GPT-4于2023年3月发布,现由微软Copilot支持,据报道使用了1750万亿个参数。

这种快速的增长带来了惊人的性能提升和效率提升,没有人质疑足够大的大型语言模型能够完成小型模型无法完成的任务,包括它们未曾训练的任务。斯坦福大学的研究团队将涌现称为“幻象”,他们承认随着模型的扩展,其效果会增强;实际上,更大的模型的复杂性使得解决更困难、更多样化的问题变得可能。但他们认为,这种改进是平滑且可预测的还是突然且尖锐的,取决于选择的度量标准,甚至可能是测试样例的不足,而非模型的内在运作方式。

举个例子,三位数加法就是一个例子。在2022年的BIG-bench研究中,研究人员报告说,参数较少时,GPT-3和另一个名为LAMDA的语言模型都无法准确完成加法问题。然而,当GPT-3使用130亿参数进行训练时,其能力似乎瞬间改变。突然间,它能够进行加法运算,而LAMDA在680亿参数时也能做到。这表明加法能力在达到某个阈值时会涌现出来。

然而,斯坦福的研究人员指出,他们仅基于准确性来评判模型:要么完美完成,要么无法完成。所以即使模型预测出大多数数字正确,如果结果不正确,它也会失败。如果计算100加278,那么376作为答案显然比-9.34更准确。

因此,Koyejo和他的合作者使用了一个提供部分分数的度量标准来测试同样的任务。“我们可以问:它对第一个数字的预测有多好?然后是第二个?第三个?”他说。Koyejo将这个新工作的想法归功于他的研究生Rylan Schaeffer,他表示注意到语言模型的能力似乎与其衡量方式有关。与斯坦福的另一位研究生Brando Miranda一起,他们选择了新的度量标准,显示随着参数的增加,语言模型在加法问题中预测出的数字序列越来越正确。这表明加法能力的涌现并非突然且不可预测的,而是渐进且可预测的。他们发现,使用不同的衡量标准,涌现现象就会消失。

其他科学家指出,这项工作并未完全消除涌现的概念。东北大学的计算机科学家Tianshi Li表示,该团队的论文没有解释如何预测何时或哪些度量标准会在大型语言模型中显示突然的改进。“所以从这个意义上说,这些能力仍然是不可预测的。”她说。还有人,比如OpenAI的计算机科学家Jason Wei(他曾编纂了一份涌现能力列表,并是BIG-bench论文的作者之一)认为,早期关于涌现的报告是合理的,因为对于像算术这样的能力来说,正确答案才是关键。

“这里确实有一个值得讨论的问题。”AI初创公司Anthropic的研究科学家Alex Tamkin说。他指出,新论文巧妙地将多步骤任务分解开来,识别各个组成部分的贡献。“但这并不是全部故事。我们不能说所有的跳跃都是幻象。我仍然认为文献表明,即使在进行一步预测或使用连续度量时,你仍然会看到跳跃式的改进。”即使在今天的大语言模型中,涌现可以通过不同的衡量工具来解释,但对明天更大、更复杂的模型来说,这可能不会适用。“当我们把大型语言模型提升到下一个层次时,它们不可避免地会从其他任务和模型中借用知识。” Rice大学的计算机科学家Xia“Ben”Hu说。

这种对涌现的考虑并非只是研究人员的抽象问题。对于Tamkin来说,这直接关系到预测大型语言模型行为的持续努力。“这些技术如此广泛,适用性如此之强。”他说,“我希望能以此为契机,继续强调预测这些事物的重要性。我们如何不被下一代模型的出现所惊讶?”