OpenAI推出AI智能体测试基准PaperBench
作者:
文少
责任编辑:刘沙
来源:
电脑商情在线
时间:2025-04-03 11:42
关键字:
OpenAI AI 智能体 PaperBench
4月2日,OpenAI正式推出了一个名为PaperBench的基准测试,用于评估AI智能体复现前沿AI研究的能力。
PaperBench要求智能体复现20篇在2024年国际机器学习大会(ICML 2024)上获得Spotlight和Oral荣誉的论文,不仅考验智能体对论文核心思想的理解能力,还要求其能够开发代码库并成功执行实验。
目前已经有多个前沿模型接受了测试。测试中表现最佳的智能体是Claude 3.5 Sonnet(新版),其结合了开源框架,平均复现得分为21%。不过这一成绩仍未超越人类基线。
为了更全面地评估智能体的表现,OpenAI还招募了顶尖机器学习博士参与部分测试,结果显示,智能体的表现仍未能达到人类水平。
OpenAI表示,PaperBench的推出旨在推动AI智能体技术的发展,并为研究人员提供一个标准化的评估工具。这一基准的发布将有助于进一步探索AI智能体在复杂任务中的潜力和局限性。