图灵奖授予人工智能领域的两位先驱者——Andrew Barto 和 Richard Sutton
CBINEWS
责任编辑:佳龄
电脑商情在线
时间:2025-03-07 16:22
图灵奖 Andrew Barto Richard Sutton 强化学习 人工智能
北京时间3月6日,计算机协会(Association for Computing Machinery)宣布,巴托博士与萨顿博士因其在强化学习领域的贡献,荣获本年度的图灵奖。两位科学家将共享100万美元的奖金。
(左)安德鲁·巴托,马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授
(右)理查德·萨顿,阿尔伯塔大学计算机科学教授
心理学家长期以来一直在研究人类和动物如何从经验中学习,这与现在OpenAI和DeepSeek的人工智能机器人可以像AlphaGo一样自我学习相契合。例如,通过解决各种数学问题,聊天机器人能够学习哪些方法能得出正确答案,哪些不能。如果这一过程在大量问题上重复进行,聊天机器人就可以学会模仿人类的推理方式——至少在某种程度上。其结果就是OpenAI的o1或deepseek的R1等所谓的推理系统。而过去十年中,巴托博士与萨顿博士共同开创的“强化学习”理论框架为今天人工智能的崛起发挥了至关重要的作用。
1977年,安德鲁·巴托作为马萨诸塞大学阿默斯特分校的研究员,开始探索一种新理论:神经元的行为类似于享乐主义者。其核心观点是,人类大脑由数十亿个神经细胞驱动,每个细胞都在试图最大化快乐并最小化痛苦。一年后,另一位年轻研究员理查德·萨顿加入了他的研究。两人共同以这一简单概念为基础,试图解释人类智能,并将其应用于人工智能领域。他们的成果便是“强化学习”,一种让AI系统从数字化的“快乐”与“痛苦”中学习的方法。
20世纪40年代,英国计算机科学先驱艾伦·图灵提出,机器也可以以类似的方式学习,但真正开始探索这一数学原理的是巴托博士与萨顿博士。“当谈到人类和动物时,这是一个显而易见的想法,”萨顿博士表示,“当我们将其应用于机器时,情况就不同了。”
这一研究在2016年AlphaGo问世之前一直停留在学术领域。许多专家仍质疑强化学习是否能在游戏之外发挥作用。游戏胜负由分数决定,这使得机器能够轻松区分成功与失败,但强化学习在在线聊天机器人中也发挥了关键作用。包括谷歌的AlphaGo和OpenAI的ChatGPT等突破性技术。这些系统的核心技术均源于巴托博士与萨顿博士的研究。他们于1998年出版的著作《强化学习:导论》(Reinforcement Learning: An Introduction),至今仍是这一领域的经典之作。
巴托博士与萨顿博士表示,这些系统暗示了未来机器的学习方式。他们相信,最终,具备AI能力的机器人将像人类和动物一样,在现实世界中通过试错学习。“通过强化学习控制身体——这是非常自然的事情,”巴托博士说。