翻译 by Gemini 2.5 Pro
tldr: 我们正处在人工智能的“中场休息”时刻。
几十年来,人工智能(AI)的发展主要围绕着开发新的训练方法和模型。这种方式确实取得了成效:从在国际象棋和围棋上击败世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到赢得 IMO(国际数学奥林匹克)和 IOI(国际信息学奥林匹克)金牌。在这些载入史册的里程碑——DeepBlue、AlphaGo、GPT-4 以及 o-series——背后,是 AI 方法论上的根本性创新:搜索、深度强化学习(Deep Reinforcement Learning, 一种让智能体通过试错与环境交互学习最优策略的机器学习方法)、规模化(Scaling, 指通过增加模型大小、数据量和计算资源来提升性能)和推理。一切似乎都在随着时间推移而变得更好。
那么,现在突然有什么不同了呢?
简而言之:强化学习(Reinforcement Learning, RL, 一种机器学习方法,智能体通过与环境互动接收奖励或惩罚来学习最优策略)终于奏效了。更准确地说:RL 终于具备了泛化能力(Generalization, 指模型在未见过的新数据上表现良好的能力)。在经历了数次重大的弯路和一系列里程碑式的积累之后,我们找到了一种行之有效的秘诀,能够利用语言和推理来解决各种各样的 RL 任务。哪怕就在一年前,如果你告诉大多数 AI 研究者,同一个秘诀能够应对软件工程、创意写作、IMO 级别的数学、鼠标键盘操作以及长篇问答——他们很可能会嘲笑你在“幻觉(Hallucination, 指 AI 模型生成看似合理但不真实或无依据的内容)”。这些任务中的每一个都极其困难,许多研究者穷尽整个博士生涯也只专注于其中一个狭窄的领域。
然而,它确实发生了。
那么接下来会发生什么?AI 的下半场——从现在开始——将把重心从解决问题转向定义问题。在这个新时代,评估(Evaluation)变得比训练(Training)更重要。我们不再仅仅问:“我们能训练一个模型来解决 X 问题吗?”,而是问:“我们应该训练 AI 去做什么,以及我们如何衡量真正的进展?” 要想在下半场取得成功,我们需要及时转变思维模式和技能组合,或许要更像一个产品经理。
上半场
要理解上半场,看看它的赢家就知道了。你认为迄今为止最具影响力的 AI 论文是哪些?
我试了试斯坦福 CS224N 课程里的测试题,答案并不令人意外:Transformer、AlexNet、GPT-3 等等。这些论文有什么共同点?它们提出了一些根本性的突破来训练更好的模型。同时,它们也通过在某些基准测试(Benchmark, 用于衡量和比较算法或系统性能的标准任务或数据集)上展示(显著的)改进而成功发表了论文。
不过,还有一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使是 arguably 最具影响力的基准测试 ImageNet,其引用量也不到 AlexNet 的三分之一。方法与基准测试的对比在其他地方甚至更为悬殊——例如,Transformer 的主要基准测试是 WMT'14,其研讨会报告约有 1300 次引用,而 Transformer 论文的引用量超过了 16 万次。
这描绘了上半场的游戏规则:专注于构建新的模型和方法,而评估和基准测试是次要的(尽管对于维持论文发表体系是必要的)。
为什么会这样?一个重要原因是,在 AI 的上半场,方法比任务更难、更令人兴奋。从零开始创造一种新的算法或模型架构——想想反向传播(Backpropagation, 训练人工神经网络时常用的一种核心算法,用于计算梯度以更新网络权重)算法、卷积网络(Convolutional Networks, 一种深度学习神经网络,在计算机视觉领域特别有效)(AlexNet)或 GPT-3 中使用的 Transformer——需要非凡的洞察力和工程能力。相比之下,为 AI 定义任务通常感觉更直接:我们只是将人类已经在做的任务(如翻译、图像识别或下棋)转化为基准测试。这其中似乎不需要太多的洞察力,甚至工程量也不大。
方法也往往比单个任务更通用、适用范围更广,这使得它们尤为宝贵。例如,Transformer 架构最终推动了计算机视觉(Computer Vision, CV, 让计算机“看”和理解图像/视频的技术)、自然语言处理(Natural Language Processing, NLP, 让计算机理解和生成人类语言的技术)、强化学习(Reinforcement Learning, RL)以及许多其他领域的进步——远远超出了它最初证明自己能力的那个单一数据集(WMT'14 翻译)。一个优秀的新方法可以通过简单和通用性在许多不同的基准测试上取得进展(hillclimb),因此其影响往往超越单个任务。
这场游戏持续了几十年,激发了改变世界的想法和突破,并通过在各个领域不断提升的基准测试性能得以体现。那为什么这场游戏会改变呢?因为这些想法和突破的积累,在创造一个解决任务的有效秘诀方面,产生了质的飞跃。
秘诀
这个秘诀是什么?它的成分不出所料,包括大规模语言预训练(Pre-training, 在大规模无标签数据上训练模型以学习通用知识和表示的过程)、规模化(Scale, 指数据和计算资源),以及推理(reasoning)和行动(acting)的思想。这些听起来可能像是你在旧金山每天都能听到的流行词,但为什么称它们为“秘诀”呢?
我们可以通过强化学习(Reinforcement Learning, RL)的视角来理解这一点,RL 通常被认为是 AI 的“终局之战”——毕竟,理论上 RL 保证能赢得游戏,而经验上也很难想象任何超人系统(如 AlphaGo)没有 RL 的参与。
在 RL 中,有三个关键组成部分:算法(algorithm)、环境(environment)和先验(Priors, 在观察数据之前已有的知识或假设)。很长一段时间里,RL 研究者主要关注算法(例如 REINFORCE、DQN、TD-learning、Actor-Critic、PPO、TRPO……)——即智能体如何学习的智力核心——而将环境和先验视为固定或最简化的。例如,Sutton 和 Barto 的经典教科书几乎全是关于算法,而很少涉及环境或先验。
然而,在深度 RL 时代,经验上变得很清楚:环境对算法性能影响巨大。一个算法的表现往往高度依赖于它被开发和测试的环境。如果你忽略了环境,你可能会构建出一个只在玩具(toy)环境中表现出色的“最优”算法。那么,为什么我们不先弄清楚我们真正想要解决的环境是什么,然后再找到最适合它的算法呢?
这正是 OpenAI 最初的计划。它建立了 gym,一个包含各种游戏的标准 RL 环境库,然后是 World of Bits 和 Universe 项目,试图将互联网或计算机变成一个游戏。听起来是个好计划,不是吗?一旦我们将所有数字世界都变成环境,用智能 RL 算法解决它,我们就拥有了数字 AGI(通用人工智能)。
计划虽好,但并非完全奏效。OpenAI 在这条路上取得了巨大进展,使用 RL 解决了 Dota、机器手(解魔方)等问题。但它从未接近解决计算机使用或网页导航的问题,而且在一个领域有效的 RL 智能体也无法迁移到另一个领域。缺少了某些东西。
直到 GPT-2 或 GPT-3 之后,才发现缺失的那一块是先验知识。你需要强大的语言预训练,将通用的常识和语言知识提炼到模型中,然后可以通过微调(Fine-tuning, 在预训练模型的基础上,使用特定任务的数据进行进一步训练)使其成为网页(WebGPT)或聊天(ChatGPT)智能体(并改变世界)。事实证明,RL 最重要的部分甚至可能不是 RL 算法或环境,而是先验知识,而这些先验知识可以通过与 RL 完全无关的方式获得。
语言预训练为聊天创造了良好的先验,但对于控制计算机或玩视频游戏则效果不佳。为什么?因为这些领域与互联网文本的分布相差较远,并且在这些领域简单地进行 SFT(监督微调)/ RL 泛化能力很差。我在 2019 年就注意到了这个问题,当时 GPT-2 刚发布,我基于它进行 SFT/RL 来解决基于文本的游戏——CALM 是世界上第一个通过预训练语言模型构建的智能体。但它需要数百万次的 RL 步骤才能在一个单一游戏中取得进展(hillclimb),并且无法迁移到新游戏中。尽管这正是 RL 的特点,对 RL 研究者来说并不奇怪,但我却觉得很奇怪,因为我们人类可以轻松地玩一个新游戏,并且在零样本(zero-shot)情况下表现得好得多。然后我迎来了人生中第一个“尤里卡时刻”(eureka moment)——我们之所以能够泛化,是因为我们可以选择做更多的事情,不仅仅是“去 2 号柜子”、“用 1 号钥匙打开 3 号箱子”或“用剑杀死地牢怪物”,我们还可以选择思考诸如“这个地牢很危险,我需要一把武器来战斗。这里没有可见的武器,也许我需要在锁着的盒子或箱子里找找。3 号箱子在 2 号柜子里,让我先去那里把它打开”之类的事情。
思考,或者说推理(Reasoning),是一种奇怪的行动——它不直接影响外部世界,但推理的空间是开放式的、组合起来是无限的——你可以思考一个词、一个句子、一整段话,或者 10000 个随机的英文单词,但你周围的世界并不会立即改变。在经典的 RL 理论中,这是一笔糟糕的交易,让决策变得不可能。想象一下,你需要从两个盒子中选择一个,只有一个盒子里有 100 万美元,另一个是空的。你的期望收益是 50 万美元。现在想象我加入了无限个空盒子。你的期望收益就变成了零。但是,通过将推理加入任何 RL 环境的行动空间,我们利用了语言预训练的先验知识来实现泛化,并且我们能够为不同的决策提供灵活的测试时计算能力。这真是一件非常神奇的事情,我很抱歉在这里没有完全解释清楚,也许我需要再写一篇博客文章来专门讨论它。欢迎阅读 ReAct 了解关于智能体推理的原始故事,以及我当时的一些想法。目前,我的直观解释是:即使你加入了无限个空盒子,但你在各种游戏中一生都在看到它们,选择这些(思考的)盒子能让你为在任何给定游戏中更好地选择那个有钱的盒子做好准备。我的抽象解释是:语言通过智能体中的推理来实现泛化。
一旦我们有了正确的 RL 先验(语言预训练)和 RL 环境(将语言推理作为行动加入),事实证明 RL 算法可能是最微不足道的部分。因此,我们有了 o-series、R1、deep research、能使用计算机的智能体,以及未来更多即将到来的东西。多么具有讽刺意味的转折!长期以来,RL 研究者关心算法远胜于环境,而且没有人关注先验——所有的 RL 实验基本上都是从零开始。但我们花费了几十年的弯路才意识到,也许我们的优先级本应完全颠倒。
但正如史蒂夫·乔布斯所说:你无法预先把点点滴滴串连起来;只有在回顾时,你才能将它们联系起来。
下半场
这个秘诀正在彻底改变游戏规则。回顾一下上半场的游戏:
- 我们开发新颖的训练方法或模型,在基准测试上不断取得进展(hillclimb)。
- 我们创建更难的基准测试,并继续这个循环。
这场游戏正在被颠覆,因为:
- 这个秘诀本质上已经将基准测试的提升过程标准化和工业化了,不再需要太多新的想法。随着秘诀的规模化和泛化能力的提升,你针对特定任务的新颖方法可能只能提升 5%,而下一个 o-series 模型可能会在没有明确针对该任务的情况下将其提升 30%。
- 即使我们创建更难的基准测试,它们很快(而且越来越快)就会被这个秘诀解决。我的同事 Jason Wei 制作了一张漂亮的图表,很好地可视化了这一趋势:
那么,下半场还剩下什么可玩的?如果不再需要新颖的方法,而更难的基准测试只会越来越快地被解决,我们应该做什么?
我认为我们应该从根本上重新思考评估(Evaluation)。这不仅仅意味着创建新的、更难的基准测试,而是要从根本上质疑现有的评估设置(setups)并创建新的设置,从而迫使我们发明超越现有有效秘诀的新方法。这很困难,因为人类有惯性,很少质疑基本假设——你只是想当然地接受它们,而没有意识到它们是假设,而不是定律。
为了解释惯性,假设你发明了历史上最成功的评估之一,基于人类考试(如 MMLU)。这在 2021 年是一个极其大胆的想法,但 3 年后它已经饱和了。你会怎么做?很可能创建 一个更难的考试(如 AGI Safety Benchmark)。或者假设你解决了 简单的编码任务(如 HumanEval)。你会怎么做?很可能找到 更难的编码任务(如 SWE-bench)来解决,直到达到 IOI 金牌水平。
惯性是自然的,但问题在于。AI 已经在国际象棋和围棋上击败了世界冠军,在 SAT 和律师资格考试中超越了大多数人类,并在 IOI 和 IMO 上达到了金牌水平。但世界并没有发生太大变化,至少从经济和 GDP 来看是这样。
我称之为效用问题(utility problem),并认为这是 AI 最重要的问题。
也许我们很快就能解决效用问题,也许不能。无论哪种方式,这个问题的根本原因可能简单得具有欺骗性:我们的评估设置在许多基本方面与现实世界的设置不同。举两个例子:
- 评估“应该”自动运行,所以通常一个智能体接收任务输入,自主完成任务,然后获得任务奖励。但在现实中,智能体必须在整个任务过程中与人互动——你不会只给客服发一条超长信息,等 10 分钟,然后期望得到一个详细的回复来解决所有问题。通过质疑这种设置,新的基准测试被发明出来,要么让真实人类参与其中(例如 Chatbot Arena),要么使用用户模拟(例如 tau-bench)作为交互的一部分。
- 评估“应该”独立同分布(i.i.d., independent and identically distributed, 统计学中的一个假设,指随机变量序列中的每个变量都具有相同的概率分布,并且彼此相互独立)地运行。如果你有一个包含 500 个任务的测试集,你会独立运行每个任务,对任务指标取平均,得到一个总体指标。但在现实中,你是按顺序解决任务,而不是并行解决。一个谷歌的软件工程师(SWE)随着对代码库(repo)越来越熟悉,解决 google3 问题的能力会越来越强,但一个 SWE 智能体在同一个代码库中解决许多问题却无法获得这种熟悉度。我们显然需要长期记忆方法(这里 有),但学术界没有合适的基准测试来证明这种需求,甚至没有足够的勇气去质疑作为机器学习基础的 i.i.d. 假设。
这些假设“一直”都是这样的,在 AI 的上半场,基于这些假设开发基准测试是没问题的,因为当智能水平较低时,提高智能通常也能提高效用。但现在,通用的秘诀保证能在这些假设下奏效。因此,玩转下半场新游戏的方式是:
- 我们为现实世界的效用开发新颖的评估设置或任务。
- 我们用现有的秘诀解决它们,或者用新颖的组件来增强秘诀。继续这个循环。
这场游戏很难,因为它不熟悉。但它令人兴奋。上半场的玩家解决视频游戏和考试,而下半场的玩家则通过将智能转化为有用的产品来创建价值数十亿甚至数万亿美元的公司。上半场充满了渐进式的方法和模型,而下半场在某种程度上会过滤掉它们。通用的秘诀会碾压你的渐进式方法,除非你创建了打破秘诀的新假设。那时,你才能做出真正改变游戏规则的研究。
欢迎来到下半场!
致谢
这篇博文基于我在斯坦福 CS224N 课程和哥伦比亚大学所做的演讲。我使用了 OpenAI deep research来阅读我的幻灯片并撰写草稿。
发表回复