图灵奖授予人工智能领域的两位先驱者——Andrew Barto 和 Richard Sutton

作者:

CBINEWS

责任编辑:

佳龄

来源:

电脑商情在线

时间:

2025-03-07 16:22

关键字:

图灵奖 Andrew Barto Richard Sutton 强化学习 人工智能

北京时间3月6日,计算机协会(Association for Computing Machinery)宣布,巴托博士与萨顿博士因其在强化学习领域的贡献,荣获本年度的图灵奖。两位科学家将共享100万美元的奖金。

(左)安德鲁·巴托,马萨诸塞大学阿默斯特分校信息与计算机科学系荣誉退休教授

(右)理查德·萨顿,阿尔伯塔大学计算机科学教授

心理学家长期以来一直在研究人类和动物如何从经验中学习,这与现在OpenAI和DeepSeek的人工智能机器人可以像AlphaGo一样自我学习相契合。例如,通过解决各种数学问题,聊天机器人能够学习哪些方法能得出正确答案,哪些不能。如果这一过程在大量问题上重复进行,聊天机器人就可以学会模仿人类的推理方式——至少在某种程度上。其结果就是OpenAI的o1或deepseek的R1等所谓的推理系统。而过去十年中,巴托博士与萨顿博士共同开创的“强化学习”理论框架为今天人工智能的崛起发挥了至关重要的作用。

1977年,安德鲁·巴托作为马萨诸塞大学阿默斯特分校的研究员,开始探索一种新理论:神经元的行为类似于享乐主义者。其核心观点是,人类大脑由数十亿个神经细胞驱动,每个细胞都在试图最大化快乐并最小化痛苦。一年后,另一位年轻研究员理查德·萨顿加入了他的研究。两人共同以这一简单概念为基础,试图解释人类智能,并将其应用于人工智能领域。他们的成果便是“强化学习”,一种让AI系统从数字化的“快乐”与“痛苦”中学习的方法。

20世纪40年代,英国计算机科学先驱艾伦·图灵提出,机器也可以以类似的方式学习,但真正开始探索这一数学原理的是巴托博士与萨顿博士。“当谈到人类和动物时,这是一个显而易见的想法,”萨顿博士表示,“当我们将其应用于机器时,情况就不同了。”

这一研究在2016年AlphaGo问世之前一直停留在学术领域。许多专家仍质疑强化学习是否能在游戏之外发挥作用。游戏胜负由分数决定,这使得机器能够轻松区分成功与失败,但强化学习在在线聊天机器人中也发挥了关键作用。包括谷歌的AlphaGo和OpenAI的ChatGPT等突破性技术。这些系统的核心技术均源于巴托博士与萨顿博士的研究。他们于1998年出版的著作《强化学习:导论》(Reinforcement Learning: An Introduction),至今仍是这一领域的经典之作。

巴托博士与萨顿博士表示,这些系统暗示了未来机器的学习方式。他们相信,最终,具备AI能力的机器人将像人类和动物一样,在现实世界中通过试错学习。“通过强化学习控制身体——这是非常自然的事情,”巴托博士说。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255