OpenAI推出AI智能体测试基准PaperBench

作者：

文少

责任编辑：

刘沙

来源：

电脑商情在线

时间：

2025-04-03 11:42

关键字：

OpenAI AI 智能体 PaperBench

4月2日，OpenAI正式推出了一个名为PaperBench的基准测试，用于评估AI智能体复现前沿AI研究的能力。

PaperBench要求智能体复现20篇在2024年国际机器学习大会（ICML 2024）上获得Spotlight和Oral荣誉的论文，不仅考验智能体对论文核心思想的理解能力，还要求其能够开发代码库并成功执行实验。

目前已经有多个前沿模型接受了测试。测试中表现最佳的智能体是Claude 3.5 Sonnet（新版），其结合了开源框架，平均复现得分为21%。不过这一成绩仍未超越人类基线。

为了更全面地评估智能体的表现，OpenAI还招募了顶尖机器学习博士参与部分测试，结果显示，智能体的表现仍未能达到人类水平。

OpenAI表示，PaperBench的推出旨在推动AI智能体技术的发展，并为研究人员提供一个标准化的评估工具。这一基准的发布将有助于进一步探索AI智能体在复杂任务中的潜力和局限性。

精彩专题