斯坦福2025年AI指数报告:中美差距缩小、推理成本降280倍
文少
责任编辑:刘沙
电脑商情在线
时间:2025-04-09 11:32
斯坦福 AI 人工智能 推理 成本
全球AI发展风向标来了!由李飞飞团队领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2025人工智能指数报告》,这份456页的重磅研究揭示了2024年AI行业的12个重大趋势,以下是主要内容:
1. AI在基准测试中的表现提升
2023年,研究人员引入MMMU、GPQA和SWE-bench基准,测试高级AI系统的极限。
2024年,AI在上述基准测试中实现18.8%、48.9%和67.3%的跨越式提升。在某些场景下,语言模型在限时编程任务中首超人类。
选择的AI指数技术性能基准vs.人类表现
2、AI从实验室走向日常生活
如医疗方面,2015年,FDA批准的AI医疗设备只有6种,而在2023年已经达到223种。
FDA批准的AI医疗设备数量(1955-2023)
在自动驾驶方面,美国运营商Waymo每周提供的自动驾驶出行服务已经突破15万次,百度的萝卜快跑(Apollo Go)自动驾驶出租车也在中国多个城市中落地。
3、企业级AI应用狂飙
2024年,美国私营部门对AI的投资增长到1091亿美元。生成式AI吸引全球私营投资339亿美元。
企业AI采用率飙升至78%,比2023年增长55%。企业普遍反馈AI显著提升了生产力。
4、AI全球竞速:中美质量、数量差距缩小
2024年,美国机构推出顶尖模型40个,中国推出顶尖模型15个。在MMLU和HumanEval等主要基准上的性能差异上,中美差距从2023年的两位数缩小至2024年的0.7%。
此外,欧洲、中东、拉丁美洲和东南亚等地区也推出了引人注目的模型。
5、负责任的AI生态系统不断发展
人工智能相关事件急剧上升,新的基准如HELMSafety、AIR-Bench和FACTS为评估事实性和安全性提供了工具。
2024 年,全球在人工智能治理方面的合作加强,经合组织、欧盟、联合国和非盟等组织发布了关注透明度、可信度和其他核心负责任人工智能原则的框架。
已公布的针对热门基础模型的安全性和负责任AI基准
6、地域认知存在鸿沟
中国(83%)、印尼(80%)、泰国(77%)等国家认为人工智能产品和服务是利大于弊的。
加拿大(40%)、美国(39%)、荷兰(36%)等国家的乐观情绪低于其他国家。
近两年来,德国(+10%)、法国(+10%)、加拿大(+8%)、英国(+8%)和美国(+4%)等国家的乐观情绪正在增长。
2022-2024年,按国家划分认为"使用AI的产品和服务利大于弊"的比例
7、AI更加高效、易于获取
达到GPT-3.5水平以上的系统推理成本在2022年11月到2024年10月间下降了280倍。
在硬件层面,成本每年下降30%,而能效每年提高40%。
在某些基准测试中,一年内性能差异从8%减少到仅1.7%。
8、各国政府加强AI监管和投资
2024年,美国联邦机构出台了59项AI相关法规,比2023年的两倍还多。
近两年来,75个国家的AI立法提及率上升了21.3%,比2016年增长了9倍。
与此同时,各国政府开展了大规模投资:加拿大承诺投资24亿美元,中国启动了475亿美元的半导体基金,法国承诺投资1090亿欧元,印度承诺投资12.5亿美元,沙特阿拉伯则发起了一项1000亿美元的倡议。
9、教育差距加剧
目前有2/3国家提供或计划提供K-12计算机科学教育,比2019年多一倍,非洲和拉丁美洲取得的进展最大。
在美国,过去10年中,拥有计算机学士学位的毕业生人数增加了22%,81%的K-12计算机科学教师表示,AI应该成为计算机科学基础教育的一部分,但只有不到一半的教师认为自己有能力教授AI。
在许多非洲国家,由于电力等基础设施的不足,获得计算机学位的机会非常有限。
10、工业界全面领先
2024年89%顶级模型源自工业界,高于2023年的60%。
模型规模持续增长,训练计算量每5个月翻一番,数据集每8个月翻一番,耗电量每年翻一番。
11、学术荣誉加冕
两项诺贝尔奖表彰了AI在深度学习(物理学)和蛋白质折叠(化学)中的应用,图灵奖则表彰了AI在强化学习方面的开创性贡献。
12.复杂推理仍是挑战
AI模型在国际数学奥林匹克竞赛问题等任务中表现出色,但在PlanBench等复杂推理基准测试中仍面临挑战,这限制了它们在精度至关重要的高风险环境中的有效性。