OpenAI o3模型测试不及预期
CBINEWS
责任编辑:张琳
电脑商情在线
时间:2025-04-21 13:13
OpenAI o3 AI
OpenAI旗下o3模型在内部评估与第三方基准测试中呈现的效能差异,引发公众对其透明度及测评方法论严谨性的质疑。2023年12月产品发布时,OpenAI官方声明o3在前沿数学基准测试集(FrontierMath)中达到约25%的解题准确率。
该数据显著领先于同期竞品,彼时次优模型的准确率仅维持于2%基准线。OpenAI首席研究科学家Mark Chen在技术研讨直播中披露:"当前所有商用产品在FrontierMath的基准测试中均低于2%阈值。但当采用激进型算力配置时,o3的内部测试数据可突破25%关口。"
后续分析表明,该峰值数据可能对应强化算力版本的o3模型,其计算资源配置显著超越上周发布的公开版本。基准测试集研发机构Epoch AI于周五发布的独立评估报告显示,o3实际测试准确率约为10%,与OpenAI官方声明的峰值性能存在显著落差。值得注意的是,OpenAI此次产品矩阵除引发热议的推理模型o3外,还包括继承o3-mini特性的轻量级迭代产品o4-mini。这并不构成OpenAI的失实陈述。
其12月公布的测试数据下限与Epoch观测结果具有一致性。Epoch同时指出,双方在测试配置及评估版本上存在差异——该机构采用FrontierMath迭代更新后的测试集。Epoch技术白皮书分析称:"效能偏差可能源自OpenAI采用的强化型内部计算架构、差异化的测试资源配置,或双方选用不同问题子集(分别为frontiermath-2024-11-26的180题与frontiermath-2025-02-28-private的290题)。"
曾参与o3预览版测试的ARC奖基金会在X平台发表声明,证实公开发布版o3"系专为对话场景优化的特化版本",该结论与Epoch的调查研究形成技术佐证。ARC Prize技术团队明确指认:"当前发布的o3计算规模均小于我方测试版本。" 按常规技术规律,算力规模的缩减可能对测试成绩产生负向影响。OpenAI技术主管周文达在近期技术说明会上阐释,相较于12月技术演示版本,正式发布的o3"针对工程化部署实施了深度优化",响应时延显著降低。其补充说明,这种优化可能导致基准测试数据呈现"非对称性波动"。
"我们通过架构优化使模型兼具经济性与实用性,"周文达强调,"确信该方案仍代表最优技术路径……用户无需承受冗长等待即可获取响应,这正是智能模型的优势价值所在。"尽管公开发行版o3未达OpenAI早期承诺的技术指标,但值得注意的是其o3-mini-high与o4-mini在FrontierMath测试中展现更优性能。公司技术路线图显示,强化版o3-pro将于未来数周内面世。此次事件再度警示行业,对于AI基准测试数据的解读应持审慎态度——尤其当数据源自主营实体时。伴随产业竞速进入白热化阶段,基准测试"争议性"正演变为AI领域的常态化现象。
2024年1月,Epoch因延迟披露OpenAI资金支持信息遭受学界质询,相关财务关系直至o3项目公示后才得以公开。多位参与FrontierMath基础研究的学者亦在OpenAI官方公告后知悉合作细节。近期技术动态显示,马斯克旗下xAI被指发布Grok 3模型的误导性性能曲线。技术产业观察人士同时指出,Meta本月公开的模型测试数据与开发者实际获取版本存在可观测差异。