OpenAI o3模型测试不及预期

作者：

CBINEWS

责任编辑：

张琳

来源：

电脑商情在线

时间：

2025-04-21 13:13

关键字：

OpenAI o3 AI

OpenAI旗下o3模型在内部评估与第三方基准测试中呈现的效能差异，引发公众对其透明度及测评方法论严谨性的质疑。2023年12月产品发布时，OpenAI官方声明o3在前沿数学基准测试集（FrontierMath）中达到约25%的解题准确率。

该数据显著领先于同期竞品，彼时次优模型的准确率仅维持于2%基准线。OpenAI首席研究科学家Mark Chen在技术研讨直播中披露："当前所有商用产品在FrontierMath的基准测试中均低于2%阈值。但当采用激进型算力配置时，o3的内部测试数据可突破25%关口。"

后续分析表明，该峰值数据可能对应强化算力版本的o3模型，其计算资源配置显著超越上周发布的公开版本。基准测试集研发机构Epoch AI于周五发布的独立评估报告显示，o3实际测试准确率约为10%，与OpenAI官方声明的峰值性能存在显著落差。值得注意的是，OpenAI此次产品矩阵除引发热议的推理模型o3外，还包括继承o3-mini特性的轻量级迭代产品o4-mini。这并不构成OpenAI的失实陈述。

其12月公布的测试数据下限与Epoch观测结果具有一致性。Epoch同时指出，双方在测试配置及评估版本上存在差异——该机构采用FrontierMath迭代更新后的测试集。Epoch技术白皮书分析称："效能偏差可能源自OpenAI采用的强化型内部计算架构、差异化的测试资源配置，或双方选用不同问题子集（分别为frontiermath-2024-11-26的180题与frontiermath-2025-02-28-private的290题）。"

曾参与o3预览版测试的ARC奖基金会在X平台发表声明，证实公开发布版o3"系专为对话场景优化的特化版本"，该结论与Epoch的调查研究形成技术佐证。ARC Prize技术团队明确指认："当前发布的o3计算规模均小于我方测试版本。" 按常规技术规律，算力规模的缩减可能对测试成绩产生负向影响。OpenAI技术主管周文达在近期技术说明会上阐释，相较于12月技术演示版本，正式发布的o3"针对工程化部署实施了深度优化"，响应时延显著降低。其补充说明，这种优化可能导致基准测试数据呈现"非对称性波动"。

"我们通过架构优化使模型兼具经济性与实用性，"周文达强调，"确信该方案仍代表最优技术路径……用户无需承受冗长等待即可获取响应，这正是智能模型的优势价值所在。"尽管公开发行版o3未达OpenAI早期承诺的技术指标，但值得注意的是其o3-mini-high与o4-mini在FrontierMath测试中展现更优性能。公司技术路线图显示，强化版o3-pro将于未来数周内面世。此次事件再度警示行业，对于AI基准测试数据的解读应持审慎态度——尤其当数据源自主营实体时。伴随产业竞速进入白热化阶段，基准测试"争议性"正演变为AI领域的常态化现象。

2024年1月，Epoch因延迟披露OpenAI资金支持信息遭受学界质询，相关财务关系直至o3项目公示后才得以公开。多位参与FrontierMath基础研究的学者亦在OpenAI官方公告后知悉合作细节。近期技术动态显示，马斯克旗下xAI被指发布Grok 3模型的误导性性能曲线。技术产业观察人士同时指出，Meta本月公开的模型测试数据与开发者实际获取版本存在可观测差异。

OpenAI o3模型测试不及预期

精彩专题

智库专家