红杉中国推出xbench--全球首个投资机构定义的AI基准测试工具
作者:
文少
责任编辑:刘沙
来源:
电脑商情在线
时间:2025-05-26 13:46
关键字:
红杉中国 xbench 投资机构 AI基准测试工具
5月26日,红杉中国正式推出全新的 AI 基准测试工具 xbench(xbench.org),并发布了题为《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-world Evaluations》的论文。
目前xbench包含两大核心评估集:科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch),还针对相关领域的主要产品进行了综合排名,提出了针对垂直领域智能体的评测方法论,并建立了招聘和营销领域的垂类Agent评测框架。这些评测结果和方法论均可通过 xbench.org 网站实时查看。
与传统评测集更注重AI系统的能力边界不同,xbench更关注AI系统在现实世界任务中的实际表现,并采用长青评估机制,通过动态更新的题目扩充评估集,以应对模型能力快速进化的影响。
据了解,在过去的两年多里,红杉中国内部一直使用xbench来跟踪和评估基础模型的能力。
红杉中国还在公告中邀请所有AI领域的从业者加入,共同使用并完善xbench,共同打造评估AI能力的新范式。
根据公开信息,近年来,红杉中国在AI领域的布局包括智谱、月之暗面、minimax、阶跃星辰、Manus等通用模型公司。
xbench的推出,标志着红杉中国在AI Agent赛道实现了从投资人到技术权威的转型。