红杉中国推出xbench--全球首个投资机构定义的AI基准测试工具

作者:

文少

责任编辑:

刘沙

来源:

电脑商情在线

时间:

2025-05-26 13:46

关键字:

红杉中国 xbench 投资机构 AI基准测试工具

  5月26日,红杉中国正式推出全新的 AI 基准测试工具 xbench(xbench.org),并发布了题为《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world Evaluations》的论文。

  目前xbench包含两大核心评估集:科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch),还针对相关领域的主要产品进行了综合排名,提出了针对垂直领域智能体的评测方法论,并建立了招聘和营销领域的垂类Agent评测框架。这些评测结果和方法论均可通过 xbench.org 网站实时查看。

  与传统评测集更注重AI系统的能力边界不同,xbench更关注AI系统在现实世界任务中的实际表现,并采用长青评估机制,通过动态更新的题目扩充评估集,以应对模型能力快速进化的影响。

  据了解,在过去的两年多里,红杉中国内部一直使用xbench来跟踪和评估基础模型的能力。

  红杉中国还在公告中邀请所有AI领域的从业者加入,共同使用并完善xbench,共同打造评估AI能力的新范式。

  根据公开信息,近年来,红杉中国在AI领域的布局包括智谱、月之暗面、minimax、阶跃星辰、Manus等通用模型公司。

  xbench的推出,标志着红杉中国在AI Agent赛道实现了从投资人到技术权威的转型。

ToB最前沿

ToB最前沿抖音号

CBI科技在线

地址:北京市朝阳区北三环东路三元桥曙光西里甲1号第三置业A座1508室 商务内容合作QQ:2291221 电话:13391790444或(010)62178877
版权所有:电脑商情信息服务集团 北京赢邦策略咨询有限责任公司
声明:本媒体部分图片、文章来源于网络,版权归原作者所有,我司致力于保护作者版权,如有侵权,请与我司联系删除
京ICP备:2022009079号-3
京公网安备:11010502051901号
ICP证:京B2-20230255