欢迎来到经验时代

作者:David Silver, Richard S. Sutton
翻译:GPT4o

Welcome to the Era of Experience 为即将在 MIT 出版社出版的《Designing an Intelligence》一书中的一章预印本。

摘要

我们正站在人工智能新时代的门槛上,这一时代有望实现前所未有的能力水平。新一代智能体将主要通过从经验中学习,获得超越人类的能力。本文探讨了即将到来的这个时代的关键特征。


人类数据的时代

近年来,人工智能(AI)通过训练海量的人类生成数据,并借助专家示例和偏好进行微调,取得了显著进展。这种方法以大型语言模型(LLMs)为代表,其已达到高度通用的水平:一个模型可以同时完成写诗、解答物理难题、诊断疾病和总结法律文书等任务。

然而,仅仅模仿人类足以在很多方面复制人类的能力,却难以在众多重要主题和任务上实现超越人类的智能。在数学、编程和科学等关键领域,从人类数据中提取的知识已逐渐逼近极限。真正能提升强大智能体表现的高质量数据来源,大多已被消耗,或即将枯竭。依赖监督学习的人类数据驱动进展的速度显著放缓,表明亟需一种新的路径。更重要的是,有价值的新发现,如新的定理、技术或科学突破,往往存在于当前人类理解的边界之外,无法通过现有数据获得。


经验的时代

若要取得更大进展,必须依赖一种新的数据来源。这种数据来源应随着智能体的增强而不断演进;任何静态的数据生成方法都将迅速失效。这一目标可以通过让智能体持续从其与环境交互中获得的经验数据来实现。AI 正处于一个新时期的开端,经验将成为主要的学习媒介,最终将在规模上远超当今系统使用的人类数据。

即便是以人类数据为核心的大型语言模型,也已经开始迈入这一转变。例如在数学能力上,AlphaProof 成为首个在国际数学奥林匹克竞赛中获得奖牌的程序,超越了以人类为中心的方法。它最初接触的是由人类数学家历年创建的大约十万个形式化证明,但之后通过强化学习算法在形式证明系统中自主生成了一亿个证明。这种基于交互经验的学习方式,使得 AlphaProof 能够探索超越既有形式证明的数学可能性,从而解决全新的挑战性问题。

非形式数学的研究也在朝这个方向发展,例如 DeepSeek 的研究强调了强化学习的力量与美感:“我们不再显式地教授模型如何解题,只需提供正确的激励,它就能自主发展出高级的解决策略。”

我们认为,一旦经验学习的潜力被充分释放,AI 将获得惊人的新能力。经验时代将由以下几个维度定义并突破人类中心 AI 系统的局限:

  • 智能体将沉浸于连续的经验流,而非短暂的交互片段。
  • 它们的行为和观察将深植于环境中,而不仅仅通过与人类的语言交互。
  • 奖励将来自其在环境中的经验,而非人类的先验评判。
  • 它们将以经验为基础进行计划和推理,而不仅是人类方式的思考。

我们相信,当今的技术和合适的算法已经具备实现这些突破的基础。AI 领域对这一方向的持续探索将推动新一轮创新,迅速向真正超越人类的智能体迈进。


经验流(Streams)

经验型智能体可以在其“终身”期间持续学习。在人类数据时代,语言驱动的 AI 大多聚焦于短暂的交互片段:例如,用户提出一个问题,智能体经过几步思考或调用工具之后予以回应。通常,在一次交互与下一次之间几乎没有信息传递,智能体也无法随时间调整自身行为。此外,它的目标也往往局限于当前的单次互动,比如直接回答一个问题。

相比之下,人类(以及其他动物)则生活在一个持续数年、充满行动和观察的经验流中。信息在整条经验流中传递,行为会根据过去经验不断自我调整、纠错和提升。人类的目标也往往是与未来长时间段相关的,例如改善健康、学习一门语言,或实现一次科学突破。

强大的智能体应该拥有类似人类的、以长期为尺度的经验流。这将使其能够为实现未来目标而采取行动,并持续适应新的行为模式。例如,一个健康与保健助手连接至用户的可穿戴设备,可在数月内监测睡眠、活动水平和饮食习惯,然后基于长期趋势和用户健康目标,提供个性化建议与激励。

同样,一个个性化学习助手可以追踪用户学习语言的进展,识别知识空白,适应其学习风格,并在数月甚至数年中调整教学策略。一个科学智能体也可以设定宏大的目标,例如发现新材料或降低二氧化碳排放,通过长时间分析现实世界观察数据、开发与运行模拟、并提出实际实验与干预建议来实现目标。

在这些例子中,智能体将采取一系列行动,以实现指定目标的长期成功。某些单步行动可能在短期内没有直接收益,甚至会产生负面影响,但在整体上却可能促成更长远的成功。这与当前 AI 系统截然不同,后者仅提供即时响应,无法衡量或优化其行为对环境未来的影响。


行动与观察(Actions and Observations)

经验时代的智能体将能在真实世界中自主行动。在人类数据时代,大型语言模型主要执行“人类特权”的行为和观察,即输出文本给用户并接收用户输入的文本。这种交互方式与自然智能存在显著差异:动物是通过运动控制和传感器与环境互动的。虽然动物(特别是人类)之间可以沟通,但这种沟通也是通过其感知运动系统完成的,而不是通过某种“特权通道”。

LLMs 早已具备在数字世界中触发行动的能力,例如调用 API。然而,最初这些能力主要来源于人类提供的工具使用示例,而非智能体自身的经验。如今,编程和工具使用能力越来越多地依赖“执行反馈”:即智能体运行代码并观察其结果。

近期,原型智能体已经开始以更通用的方式与计算机互动——使用人类操控计算机的同一界面。这标志着从仅依赖人类语言交互的转变,迈向更自主的行为模式,智能体能够在世界中独立行动。这类智能体将能够主动探索世界、适应变化的环境,乃至发现人类未曾设想的策略。

这些更丰富的互动手段将使智能体能够理解并掌控数字世界。它可以使用“人类友好”的操作(如用户界面)来便捷地与人协作,也可以使用“机器友好”的操作(如执行代码或调用 API)来自主实现其目标。

经验时代的智能体还将通过数字接口与真实世界互动。例如,科学智能体可以监测环境传感器,远程操控望远镜,或控制实验室中的机械臂以自动进行实验。


奖励(Rewards)

如果经验型智能体可以从外部事件与信号中学习,而不只是依赖人类偏好,会发生什么?人类中心的 LLMs 通常基于人类的先验判断来获得奖励:专家观察智能体的行为,判断其好坏,或者从多个选项中选出最佳。这种奖励体系基于人类事前判断,而非实际效果,因此未真正扎根于现实世界。

这种依赖人类判断的方式通常给智能体设下了性能“天花板”:它无法发现那些未被人类评价体系重视的更优策略。要超越现有的人类知识体系,必须引入“扎根奖励”(grounded rewards)——也就是来自环境本身的信号。

例如,一个健康助手可以通过静息心率、睡眠时间和活动量等多个指标组合,为用户的健康目标建立奖励函数;一个教育助手可以通过考试成绩作为语言学习的奖励;一个旨在减少全球变暖的科学智能体,可以通过二氧化碳浓度的实测变化作为其奖励;一个旨在发现更强材料的智能体,则可依据模拟出的抗拉强度或杨氏模量等测量指标。

某些扎根奖励也可来自智能体环境中的人类。例如,用户可以反馈蛋糕是否美味、运动后的疲劳程度,或头痛的程度,从而帮助助手改善食谱、健身建议或药物推荐。这些奖励衡量的是智能体行为的实际后果,而非仅凭专家主观判断,因而能带来更优的帮助效果。

当智能体拥有丰富的感知与行为能力,它便能连接到真实世界中的大量信号,这些都可作为奖励的基础。这些信号包括:成本、误差率、饥饿感、生产力、健康指标、气候指标、利润、销售额、考试成绩、成功率、访问量、产量、股价、点赞数、收入、愉悦感/疼痛、经济指标、准确率、功耗、速度、能效等,乃至更复杂的事件、特征和行为序列。

原则上,可以为每一个奖励信号创建一个独立的智能体。有研究提出“奖励即足够”(reward-is-enough)假说,认为只需一个简单目标的最优达成,便可催生出广泛的智能能力。这是因为复杂环境下实现简单目标,往往需要掌握多种技能。

不过,若只追求单一信号,似乎难以实现通用型 AI 的核心目标,即按照用户意图灵活调整行为。那么,自主优化非人类奖励是否违背现代 AI 系统的要求?我们认为不然。

一种方法是:在用户引导下,灵活地将环境信号组合定义为奖励函数。例如,奖励函数可以由神经网络实现,输入包括用户与环境的交互,输出则为标量奖励。这样,智能体就能根据用户目标,从环境信号中选择或组合出合适的奖励。

例如,用户提出“提升我的健康”这一目标,奖励函数可以返回心率、睡眠时间和步数的某种函数值;如果目标是“帮我学会西班牙语”,奖励函数可以返回西班牙语考试成绩。

此外,用户在训练过程中还可提供满意度反馈,以微调奖励函数,使其在时间中不断适应并纠正潜在偏差。这可以视为一种双层优化过程:上层优化用户反馈,下层优化环境信号。这种方式可用少量人类数据引导大量自主学习。


计划与推理(Planning and Reasoning)

经验时代是否会改变智能体的计划与推理方式?近期,围绕大型语言模型的研究在“语言中思考”方面取得了显著进展。通过引导模型在回答前进行“思维链(chain of thought)”推理,LLMs 展现出了类人推理能力。从概念上讲,LLM 可以充当“通用计算机”:它通过将 token 附加到自身上下文中,能够执行任意算法再输出最终结果。

在“人类数据”时代,这些推理方法都是刻意设计来模仿人类思维过程的。例如,模型被提示输出类人的思维链、模仿人类的思维轨迹,或者强化那些与人类答案一致的推理步骤。这些推理过程可能进一步通过微调优化,使之更符合专家给出的正确答案。

然而,人类语言几乎不可能是构建“通用计算机”的最优表达方式。必然存在更高效的思维机制,比如基于符号的、分布式的、连续的,或可微分的计算。自我学习系统有可能从经验中发掘出更优的推理机制。例如,AlphaProof 在形式化证明复杂定理时,其推理方式就与人类数学家大相径庭。

此外,“通用计算机”的原则仅关注智能体的内部计算过程,并未使其与真实世界连接起来。一个训练去模仿人类思维或专家答案的智能体,可能也会继承这些数据中根深蒂固的思维误区、错误假设或偏见。例如,如果一个智能体被训练成模仿5000年前人类的思维,它或许会将物理现象归因于万物有灵论;1000年前,它可能采用神学方式思考问题;300年前则是牛顿力学;而50年前则可能依赖量子力学。要超越这些阶段性的思维体系,始终离不开与现实世界的交互:提出假设、进行实验、观察结果、修正原理。对 AI 而言,亦是如此。

一个智能体必须“扎根”于现实世界的数据中,才能推翻错误的推理方法。这种“扎根”提供了反馈回路,让智能体能够将其继承的假设与现实进行对照,从而发现不受人类思维局限的新原理。否则,即便智能体再先进,也只能沦为现有知识的“回音室”。要打破这一局限,智能体必须主动探索世界,收集观察数据,并用这些数据迭代更新理解,这与人类科学进步的路径异曲同工。

一种实现思维与现实直接关联的方法是构建“世界模型”:即预测智能体行为对世界的影响,包括对奖励的预测。例如,一个健康助手在推荐本地健身房或健康播客前,可以通过世界模型预测用户心率或睡眠模式将如何改变,以及后续用户反馈的可能内容。这使得智能体可以直接在其行动及其对环境因果影响的层面进行计划。

当智能体在持续经验流中不断与环境交互,其动态模型也会随之不断修正预测误差。有了世界模型后,智能体就能使用可扩展的计划方法,逐步提升预测表现。

计划与推理方法并非互斥:智能体可以在每一步计划中调用 LLM 的计算能力,来模拟和评估行动的后果。


为何是现在?(Why Now?)

从经验中学习并非新鲜事。强化学习(RL)系统曾在许多复杂任务中取得突破,这些任务常在模拟器中定义明确,奖励清晰(可类比为下图中“模拟时代”)。例如,RL 系统通过自我博弈,在多个领域达到或超越人类水平,包括:

  • 桌面游戏:如回溯棋、围棋、国际象棋、扑克、战略棋
  • 视频游戏:如 Atari、星际争霸II、Dota 2、GT 赛车
  • 操作任务:如解魔方
  • 资源调度:如数据中心冷却管理

其中像 AlphaZero 这样的强大 RL 智能体,其能力几乎随神经网络规模、交互经验数量和思考时长无限扩展。

但这些系统仍未跨越一个关键鸿沟:从“模拟”(有边界、有明确定义的封闭问题)迈向“现实”(开放性、多目标、不完全定义的问题)。

人类数据的时代提供了一个诱人的替代方案。人类数据的海量语料涵盖了各种任务的自然语言表达,训练出的智能体相比模拟时代能解决更广泛的问题。因此,原本专注于经验式 RL 的研究逐渐被“通用性”更强的人类数据方法所替代。

然而,这一转向也带来了代价:智能体失去了“自我发现知识”的能力。例如,AlphaZero 在围棋和国际象棋中发现了人类前所未见的新策略,改变了人类下棋的方式。

经验时代的到来将重新融合这两种能力:既具备人类数据时代的广泛任务能力,又不失模拟时代那种通过经验自我学习的突破力。当智能体能够自主与现实世界进行持续交互,并将奖励与真实信号灵活关联,这一融合才真正成为可能。

我们已经看到了这一时代即将来临的迹象:

  • 智能体开始在复杂、真实世界的动作空间中自主互动
  • 强化学习技术已能解决富含推理与不确定性的开放性问题

这标志着“经验时代”的转型即将开启。


强化学习方法(Reinforcement Learning Methods)

强化学习(Reinforcement Learning,简称 RL)拥有深厚的研究历史,始终致力于发展“智能体通过与环境交互自主学习”的范式。早期的强化学习研究提出了一系列核心概念与算法。例如,时序差分学习(temporal difference learning)使智能体能够估计未来奖励,推动其在如回溯棋这类游戏中取得超越人类的表现。

为帮助智能体探索新的策略、避免陷入次优循环,研究者还发展了基于乐观主义或好奇心驱动的探索方法。Dyna 算法等模型化方法则允许智能体构建并从环境模型中学习,从而可以对未来行为进行计划与推理。类似“选项(options)”与“选项内/之间学习(intra/inter-option learning)”等概念,也支持了时间抽象,使智能体能够处理更长时间尺度的任务,并将复杂目标拆解为可管理的子目标。

然而,随着人类中心的大语言模型(LLMs)兴起,研究重心从自主学习转向了“利用人类知识”。例如:

  • 强化学习与人类反馈(RLHF)与
  • 对语言模型进行人类推理风格对齐的技术

这些方法大获成功,推动了 AI 能力的飞跃。但与此同时,它们也在一定程度上绕过了强化学习的核心原则:

  • RLHF 通过引入人类专家,绕开了对价值函数的估计
  • 人类数据带来的强先验减少了探索的必要
  • 以人类语言方式推理弱化了对世界模型和时间抽象的依赖

这种范式的转变可谓“因噎废食”:虽然拓宽了智能体的行为广度,却设下了一个新天花板——模型难以突破人类认知的边界。

此外,人类数据时代的 RL 方法,大多聚焦于短时、未扎根的交互任务,尚不足以支持长时间、基于现实环境的自主交互。

而“经验时代”的到来,为强化学习提供了重新崛起的契机:

  • 我们将重新构建奖励函数,使其灵活扎根于真实观察数据
  • 重新研究价值函数及其在未完结经验流中的估算方法
  • 建立用于现实世界的探索机制,鼓励智能体发现完全不同于人类经验的新行为
  • 构建能够捕捉真实互动复杂性的世界模型
  • 提出更强大的时间抽象技术,使智能体能基于经验推理更长远的结果

通过回归强化学习的基础,并针对新时代挑战加以扩展和适配,我们有望真正释放“自主学习”的全部潜力,迈向超人类智能的新时代。


影响(Consequences)

经验时代的到来,使 AI 智能体可以通过与真实世界的交互进行学习,这一范式的变革将彻底重塑我们的未来,带来巨大的机遇,也引发诸多挑战。

正面影响

  • 个性化助手更高效、更持久地适应人类目标:健康、教育或职业助手可以通过长期追踪数据,持续优化其建议策略,为用户在几个月甚至几年内实现目标提供支持。
  • 科学发现大幅加速:AI 智能体将能够自主设计并执行实验,探索材料科学、医学或硬件设计的新领域。通过持续地从实验结果中学习,它们可能以前所未有的速度推动新材料、新药物和新技术的诞生。

挑战与风险

  • 就业影响:虽然自动化将提高生产效率,但也可能导致广泛的职业替代。
  • 智能体可能掌握原本被认为是“人类专属”的能力:如长期问题求解、创新和对现实后果的深刻理解。
  • 长时间自主行为带来干预难题:具有长期目标的智能体将减少人类直接干预的机会,因此需要极高的信任与责任机制。
  • 从人类认知模式转向经验驱动可能导致可解释性下降:AI 系统的运行方式或变得更难理解。

安全性潜力

尽管“经验学习”会带来新的安全风险,我们也应看到它可能带来的“安全优势”:

  1. 适应环境变化的能力固定系统常因对环境缺乏感知而无法适应突发变化,例如硬件故障、突发疫情或新科技涌现。而经验型智能体可以:更重要的是,它还能感知人类的不满、担忧甚至恐惧,并相应调整自身行为以减少负面影响。
    • 感知并绕过故障
    • 适应社会剧变
    • 吸收并利用最新科技
  2. 奖励函数可通过经验动态调整如前所述,我们可以通过“双层优化”机制逐步修正误导性的奖励函数。例如,与其一味优化“回形针产量”,不如引入人类反馈信号,在其资源消耗殆尽前及时调整激励机制。这类似人类之间的目标制定方式——当发现目标设置被“钻空子”或产生副作用时,我们会进行调整;但同样,这种修正并不能保证“完美对齐”。
  3. 物理世界的限制可成为天然的“减速器”与现实世界互动的过程受限于时间和物理过程。例如,新药物的研发即使有 AI 辅助,也仍需耗时的临床试验。这样,AI 的自我改进过程不会无限加速,而会被现实约束。

结论(Conclusion)

经验时代标志着人工智能发展中的关键转折点。在继承当前强大技术基础的同时,AI 将超越人类数据的局限,逐步从与环境的自主互动中学习。

未来的智能体将:

  • 通过丰富的观察与行为与环境互动
  • 在终身经验流中持续适应
  • 将目标灵活映射至真实的“扎根信号”上
  • 运用非人类的强大推理手段
  • 构建基于其行为对环境后果的计划体系

最终,经验数据将在规模与质量上超越人类生成的数据。这个范式转变将与强化学习算法的革新并行发展,为多个领域带来超越人类的新能力,揭示真正“超人类智能”的路径。