苦涩的教训
作者:Rich Sutton
翻译:GPT4o
Rich Sutton是强化学习领域的权威研究者,他在 2019 年 3 月 13 日发表了 文章 The Bitter Lesson,核心观点是计算能力的增长最终会战胜人类知识的精心设计,AI 研究的成功在于利用更大规模的计算,而非依赖人类对问题的理解。这个教训之所以“苦涩”,是因为许多研究者投入了大量精力去构建依赖人类知识的 AI 解决方案,但最终它们总是被更简单、更计算密集的系统取代。这一趋势一直在重复发生,而 AI 研究者往往需要经历失败后才会接受。本文是该文章的中文翻译版本。在DeepSeek牵起的人工智能热潮下,重温该文章让我们对未来的技术路线的发展有更深刻的理解。
从70年的人工智能研究中可以得出的最大教训是:利用计算的通用方法最终是最有效的,并且优势极为明显。其根本原因在于摩尔定律,或者更一般地说,是计算单元成本持续呈指数级下降的趋势。大多数人工智能研究是基于这样一个假设,即智能体可用的计算资源是恒定的(在这种情况下,利用人类知识是提升性能的唯一方式之一)。然而,在比典型研究项目稍长的时间尺度上,计算能力必然会大幅增长。研究人员往往寻求短期内能带来显著提升的方法,因此他们倾向于利用人类对特定领域的知识。但从长远来看,唯一重要的事情是如何利用计算资源。这两种方法本不一定是对立的,但在实践中往往是相互竞争的——投入在一种方法上的时间,意味着减少了对另一种方法的探索。此外,研究人员通常在某种方法上投入了大量的心理认同和情感投资。而基于人类知识的方法往往会使技术变得更加复杂,从而降低其利用通用计算方法的能力。人工智能研究者们一次次地迟钝地认识到这一苦涩的教训,回顾其中一些最显著的例子颇具启发性。
计算机国际象棋的教训
1997年,击败世界冠军卡斯帕罗夫的计算机国际象棋方法是基于大规模的深度搜索。当时,大多数计算机象棋研究者对这一结果感到失望,因为他们之前所追求的方向是利用人类对象棋结构的理解。当一个更简单、基于搜索的方法(借助专门的硬件和软件)被证明远远更有效时,依赖人类知识的象棋研究者并不是好输家。他们认为“蛮力”搜索或许在这次比赛中取胜,但它并不是一种通用策略,而且这并不是人类下棋的方式。这些研究者希望基于人类输入的方法能胜出,因此当他们的期待落空时,感到失望。
计算机围棋的教训
在计算机围棋研究中,也出现了类似的研究进展模式,只是比国际象棋晚了20年。最初,大量努力投入到如何利用人类知识或围棋的特殊特性,以减少搜索需求。然而,这些努力最终被证明是无关紧要的,甚至是阻碍进步的——一旦大规模搜索被有效应用,这些人类知识驱动的方法就变得毫无价值。此外,在计算机围棋中,自我对弈学习成为了一个关键因素(在许多其他游戏,甚至国际象棋中也是如此,尽管1997年击败世界冠军的程序中学习并没有起到重要作用)。自我对弈学习以及机器学习的本质与搜索类似——它们都能利用大规模计算资源。因此,计算机围棋的发展轨迹与计算机象棋类似——研究人员最初专注于利用人类知识(试图减少搜索需求),但最终,接受搜索和学习方法才带来了更大的成功。
语音识别的教训
在20世纪70年代,由DARPA资助的一场早期语音识别竞赛中,各参赛方法主要分为两大类:一类是利用人类知识的方法,例如基于单词、音素或人类声道结构的特定规则;另一类是基于统计方法,依赖更多计算量,如隐马尔可夫模型(HMMs)。最终,统计方法战胜了基于人类知识的方法。这一结果导致整个自然语言处理领域发生重大变革,在接下来的几十年里,统计和计算逐渐成为主导方向。近年来,深度学习在语音识别中的崛起是这一趋势的最新延续。深度学习方法几乎完全不依赖人类知识,而是通过大规模计算和海量训练数据进行学习,从而极大地提升了语音识别的性能。与棋类游戏类似,研究人员总是试图让系统按照他们认为人类思维运作的方式工作——他们试图将这些知识直接植入系统。但最终,这种做法被证明是适得其反的,并且在计算能力大幅增长的时代,完全是对研究时间的巨大浪费。
计算机视觉的教训
计算机视觉研究的发展轨迹也类似。早期的方法试图从边缘检测、广义圆柱体、SIFT特征等角度理解视觉。然而,如今这些方法基本上都被淘汰了。现代深度学习神经网络仅使用卷积等少数概念以及某些不变性假设,却表现得远远更好。
苦涩的教训
这是一个重要的教训。然而,整个人工智能领域仍未完全吸取这个教训,因为我们仍在不断犯相同的错误。要避免这些错误,我们必须理解它们的吸引力。我们必须学会这个苦涩的教训:试图将人类思维的运作方式直接植入人工智能系统,从长远来看是行不通的。历史已经反复证明:
- AI 研究者总是试图在智能体中构建知识。
- 在短期内,这种方法确实能带来一定的提升,并让研究者感到满足。
- 但从长远来看,这种方法的效果最终会达到瓶颈,甚至阻碍进一步发展。
- 最终的突破往往是通过完全相反的方法实现的——即通过搜索和学习来扩展计算规模。
最终的成功往往带有苦涩的味道,因为它是对人类中心主义方法的颠覆。这种成功往往难以被完全接受,因为它否定了研究人员长期以来所钟爱的理论框架。
应该从苦涩的教训中学到什么?
首先,我们应该认识到通用方法的强大之处。那些随着计算能力的增加而能不断扩展的方法才是真正值得研究的。从目前的经验来看,搜索和学习是唯二能在计算能力不断增长的情况下无限扩展的方法。
其次,我们应该认识到,人类思维的内容本质上是极其复杂的,甚至是无法归纳的。我们应该放弃那些试图用简单规则来描述思维内容的尝试,比如对空间、物体、多智能体、对称性的简单建模。所有这些都是外部世界本质上复杂的一部分,而不是应该直接构建到AI系统中的内容。真正应该被构建进系统的是那些能够发现和捕捉这种复杂性的元方法。这些方法的核心在于它们能找到好的近似解,但这个搜索过程应该由AI自己完成,而不是由人类预设。
我们希望AI能像人类一样去发现新事物,而不是简单地复制人类已经发现的知识。如果我们将已有的知识硬编码到系统中,反而会让AI更难理解发现过程本身是如何进行的。