极客网 ·人工智能8月25日 大型语言模型(LLM)如今成为媒体炒作和关注的焦点,因为它们似乎具有神奇的能力,可以产生长篇连贯的文本,并且可以做一些它们没有接受过训练的事情,并在某种程度上参与被认为是计算机禁区的话题。


但是,关于大型语言模型的工作方式还有很多需要学习的地方。谷歌公司、斯坦福大学、DeepMind和北卡罗来纳大学教堂山分校的研究人员最近进行了一项研究,以探索随着模型规模增长和接受更多数据训练,大型语言模型可以完成的新任务。 

有关这一研究的论文揭示了大型语言模型的规模与其“突现(emergent)”能力之间的关系。 

什么是“突现”? 

这项研究的重点是物理学、生物学和计算机科学等领域长期以来一直在讨论“突现”的意义。诺贝尔奖得主物理学家Philip Anderson曾在文章中讨论了这种量变导致质变并出现意想不到的现象。

受他的启发,加州大学伯克利分校教授Jacob Steinhardt将“突现”定义为“当系统中的量变导致其行为发生质变时出现的现象”。 

斯坦福大学博士生、该研究报告论文的合著者Rishi Bommasani说,“我们希望提供更精确的定义,我们将突现能力定义为‘不存在于较小模型中但存在于较大模型中’的能力。” 

为了识别大型语言模型中的突现能力,研究人员致力寻找相变——在某个规模阈值以下,其模型性能接近随机;而超过该阈值,其性能远高于随机。 

Bommasani说:“这将突现能力与随着规模的扩大而平稳提高的能力区分开来。预测何时会出现突现能力要困难得多。” 

规模可以用不同的方式来衡量,包括计算(FLOPs)、模型大小(参数数量)或数据大小。在他们的研究中,研究人员专注于计算和模型的大小。


大型语言模型中的“突现”能力

大型语言模型是一个特别有趣的案例研究,因为它们已经显示出非常明显的突现迹象。大型语言模型通常采用数千亿个参数,并在数百GB的文本数据上进行训练,其可用于广泛的任务,包括文本生成、回答问题、文章摘要等。 

大型语言模型的有趣特征之一是它们的小样本和零样本学习能力,即执行训练示例中未包含的任务的能力。随着OpenAI的GPT-3在2020年的推出,大型语言模型中的小样本学习引起了广泛关注,此后研究人员对其范围和局限性进行了大量研究。 

在这一研究中,研究人员测试了几个主流的大型语言模型,包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM。他们从一个包含200多个任务的BIG-Bench基准中选择了几个任务用于测试,这些任务被认为超出了当前语言模型的能力。同时还使用了来自TruthfulQA、MMLU、 WiC的挑战,这些都是旨在测试大型语言模型在处理复杂语言任务到达极限的基准。此外研究人员还测试了大型语言模型的多步推理、指令跟踪和多步计算能力。 

Bommasani说,“GPT-3具有标志性意义,它引入了真正独特的第一波突现能力,也就是现在众所周知的少量提示/场景学习。” 

研究结果表明,规模与突现的能力高度相关。每个大型语言模型系列都有不同的规模,在特定规模以下的任务上表现出随机或低于随机的性能。在那之后,他们发现准确性突然提高,并随着模型的变大而继续提高。 


大型语言模型显示出大规模的突现能力,其中任务的性能保持在随机水平,直到模型的大小达到某个阈值。在此之后,随着模型变大,性能会突然提高并继续提高。

Bommasani说,“一个有趣的例子是Pilehvar和Camacho Collados(2019)场景中的WiC基准测试,GPT-3和Chinchilla在其中基本上获得了随机的一次性性能,但最终显示出的性能要高得多。”

大型语言模型产生“突现”能力的原因 

大型语言模型中存在突现能力表明,研究人员无法通过推断较小的模型的性能来预测大型语言模型的能力。 

论文这样写道,“突现的小样本提示任务也是不可预测的,因为这些任务没有明确包含在预训练中,而且我们可能不知道语言模型可以执行的小样本提示任务的整体范围。总体而言,进一步扩大规模可能会赋予更大的语言模型新的突现能力。”

然而一个悬而未决的问题是,这些模型是否真的在学习这些新兴技能所需的知识。一些研究表明,当神经网络提供正确的结果时,它通常将输入映射到输出,而不需要学习因果关系、常识和其他作为学习技能基础的知识。

Bommasani说,“总的来说,大型语言模型如何获得能力、技能在概念层面上并没有得到很好的理解。有证据表明,大型语言模型模型在某些方面随着规模变大而变得更加稳健,其实最好的模型在关键方面也并不是稳定的。此外,稳健性/稳定性/因果关系与规模之间的总体关系尚不为人所知。”

在论文中,研究人员还讨论了一些规模限制,其中包括硬件和数据瓶颈。此外,他们观察到某些能力可能不会随着规模的扩大而出现,包括远远超出模型训练数据集分布的任务。他们还警告说,一旦出现突现能力,并不能保证它会随着规模的扩大而继续提高。

Bommasani说:“我并不期望所有的行为都是突现的,但我确实希望随着规模扩大,将会看到更多的突现行为。在更高的层面上,我预计我们将在一段时间内继续看到基础模型范式中的重大惊喜。”

探索规模化的替代方案 


随着机器学习社区朝着创建更大的语言模型迈进,人们越来越担心大型语言模型的研究和开发将集中在少数拥有资金和计算资源的机构手中。通过发布开源模型或降低训练和运行的成本和技术开销,一些研究机构想努力实现大型语言模型的普惠化。

在论文中,研究人员讨论了一些规模化的替代方案,包括在特定任务数据集上微调较小的模型。论文中写道,“一旦发现了一种能力,进一步的研究可能会使这种能力适用于更小规模的模型。随着我们继续训练规模越来越大的语言模型,降低突现能力的规模门槛将变得更加重要,因为这样可以让社区广泛使用这些突现能力的研究结果。” 

Bommasani说:“无论是否有突现能力,加大规模的好处都可能激励人们拼资源,这将激发或加剧权力的集中化。从历史上看,人工智能研究显然会从具有开放科学传统的学术界和工业界的合作中受益匪浅。鉴于大模型规模的资源密集型性质,我认为这些必须坚持几个互补的前进道路:一是规范研究人员获取现有模型,二是开放式合作推进普惠化,三是结构化资源以提供必要的计算和数据。” 

最后他指出,在可预见的未来,大型语言模型仍将是机器学习研究的支柱。随着它们进入实际应用,研究人员需要继续研究它们的能力和局限性。