图灵奖授予人工智能领域的两位先驱者——Andrew Barto 和 Richard Sutton

作者：

CBINEWS

责任编辑：

佳龄

来源：

电脑商情在线

时间：

2025-03-07 16:22

关键字：

图灵奖 Andrew Barto Richard Sutton 强化学习人工智能

北京时间3月6日，计算机协会（Association for Computing Machinery）宣布，巴托博士与萨顿博士因其在强化学习领域的贡献，荣获本年度的图灵奖。两位科学家将共享100万美元的奖金。

（左）安德鲁·巴托，马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授

（右）理查德·萨顿，阿尔伯塔大学计算机科学教授

心理学家长期以来一直在研究人类和动物如何从经验中学习，这与现在OpenAI和DeepSeek的人工智能机器人可以像AlphaGo一样自我学习相契合。例如，通过解决各种数学问题，聊天机器人能够学习哪些方法能得出正确答案，哪些不能。如果这一过程在大量问题上重复进行，聊天机器人就可以学会模仿人类的推理方式——至少在某种程度上。其结果就是OpenAI的o1或deepseek的R1等所谓的推理系统。而过去十年中，巴托博士与萨顿博士共同开创的“强化学习”理论框架为今天人工智能的崛起发挥了至关重要的作用。

1977年，安德鲁·巴托作为马萨诸塞大学阿默斯特分校的研究员，开始探索一种新理论：神经元的行为类似于享乐主义者。其核心观点是，人类大脑由数十亿个神经细胞驱动，每个细胞都在试图最大化快乐并最小化痛苦。一年后，另一位年轻研究员理查德·萨顿加入了他的研究。两人共同以这一简单概念为基础，试图解释人类智能，并将其应用于人工智能领域。他们的成果便是“强化学习”，一种让AI系统从数字化的“快乐”与“痛苦”中学习的方法。

20世纪40年代，英国计算机科学先驱艾伦·图灵提出，机器也可以以类似的方式学习，但真正开始探索这一数学原理的是巴托博士与萨顿博士。“当谈到人类和动物时，这是一个显而易见的想法，”萨顿博士表示，“当我们将其应用于机器时，情况就不同了。”

这一研究在2016年AlphaGo问世之前一直停留在学术领域。许多专家仍质疑强化学习是否能在游戏之外发挥作用。游戏胜负由分数决定，这使得机器能够轻松区分成功与失败，但强化学习在在线聊天机器人中也发挥了关键作用。包括谷歌的AlphaGo和OpenAI的ChatGPT等突破性技术。这些系统的核心技术均源于巴托博士与萨顿博士的研究。他们于1998年出版的著作《强化学习：导论》（Reinforcement Learning: An Introduction），至今仍是这一领域的经典之作。

巴托博士与萨顿博士表示，这些系统暗示了未来机器的学习方式。他们相信，最终，具备AI能力的机器人将像人类和动物一样，在现实世界中通过试错学习。“通过强化学习控制身体——这是非常自然的事情，”巴托博士说。

图灵奖授予人工智能领域的两位先驱者——Andrew Barto 和 Richard Sutton

精彩专题

智库专家