OpenAI推出AI智能体测试基准PaperBench

作者:

文少

责任编辑:

刘沙

来源:

电脑商情在线

时间:

2025-04-03 11:42

关键字:

OpenAI AI 智能体 PaperBench

4月2日,OpenAI正式推出了一个名为PaperBench的基准测试,用于评估AI智能体复现前沿AI研究的能力。

PaperBench要求智能体复现20篇在2024年国际机器学习大会(ICML 2024)上获得Spotlight和Oral荣誉的论文,不仅考验智能体对论文核心思想的理解能力,还要求其能够开发代码库并成功执行实验。

目前已经有多个前沿模型接受了测试。测试中表现最佳的智能体是Claude 3.5 Sonnet(新版),其结合了开源框架,平均复现得分为21%。不过这一成绩仍未超越人类基线。

为了更全面地评估智能体的表现,OpenAI还招募了顶尖机器学习博士参与部分测试,结果显示,智能体的表现仍未能达到人类水平。

OpenAI表示,PaperBench的推出旨在推动AI智能体技术的发展,并为研究人员提供一个标准化的评估工具。这一基准的发布将有助于进一步探索AI智能体在复杂任务中的潜力和局限性。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255