网易首页 > 网易浙江 > 正文

斯坦福2025 AI指数出炉!DeepSeek领衔,中美AI终极对决差距仅0.3%

0
分享至

 当地时间4月7日,每年都备受瞩目的斯坦福AI指数报告,重磅发布!

这份报告由斯坦福大学以人为本AI研究员发布,代表着每年AI领域最核心和前沿的动向总结。

今年这份报告长达456页,抛出不少惊人观点。



比如,如今中美顶级AI模型的性能差距已经缩小到了0.3%(2023年,这一数字还是20%),中国模型正在快速追赶美国的领先地位!


DeepSeek领衔的开放权重模型,更是以1.7%之差,逼宫各大闭源巨头。前者和后者的差距,已经由2024年的8%,缩小至2025年的1.7%。


当然,目前从行业主导企业来看,美国仍然领先于中国。在2024年,90%的知名AI模型来自企业,美国以40个模型领先,中国有15个。


更明显的一个趋势,就是如今大模型的性能已经趋同!在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它们的差距已经越来越小,锐减至5%。



十二大亮点

最新的斯坦福HAI两篇博文中,浓缩了2025年AI指数报告的十二大亮点。


1. AI性能再攀高峰,从基准测试到视频生成全面突破

2023年,研究人员推出了MMMU、GPQA和SWE-bench等新基准来测试先进AI系统的极限。

仅一年后,性能便大幅提升:AI在三项基准得分分别飙升18.8%、48.9%和67.3%。


不仅如此,AI在生成高质量视频方面取得重大突破,甚至在某些场景下AI智能体甚至超越人类表现。



· 更有用智能体崛起 


2024年发布的RE-Bench基准测试,为评估AI智能体复杂任务能力设立了严苛标准。


数据显示:在短期任务(2小时内)场景下,顶级AI系统的表现可达人类专家的4倍;但当任务时限延长至32小时,人类则以2:1的优势反超。


值得注意的是,AI已在特定领域,如编写特定类型代码,展现出与人类相当的专业水平,且执行效率更胜一筹。



2. 美国领跑顶尖模型研发,但中国与之差距逐渐缩小

2024年,美国产出40个重要AI模型,远超中国的15个和欧洲的3个。

然而,中国模型在性能上的差距正加速缩小:MMLU等基准测试中,中美AI差异从两位数缩小至近乎持平。


同时,中国在AI学术论文和专利申请量上持续领跑,中东、拉美和东南亚地区也涌现出具有竞争力的模型。



3. AI正变得高效且普惠,推理成本暴降280倍


随着小模型性能提升,达到GPT-3.5水平的推理成本在两年间下降280倍,硬件成本以每年30%的速度递减,能效年提升率达40%。


更令人振奋的是,开源模型性能突飞猛进,部分基准测试中与闭源模型的差距从8%缩至1.7%。


· 大模型使用成本持续走低,年降幅最高900倍


在MMLU基准测试中达到GPT-3.5水平(MMLU准确率64.8%)的AI模型调用成本,已从2022年11月的20美元/每百万token,骤降至2024年10月的0.07美元/每百万token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18个月内AI成本下降280倍。


视具体任务需求,LLM推理服务价格的年降幅可达9-900倍不等。



· 小模型性能显著提升,参数暴减142倍


2022年,在大规模多任务语言理解(MMLU)基准测试中,得分超60%的最小模型是 PaLM,参数量为5400亿。


到了2024年,微软Phi-3-mini仅用38亿参数,就取得了同样的实力。


这代表,两年多的时间里模型参数减少了142倍。



4. 科技巨头称霸AI前沿,但竞争白热化


2024年,近90%的重要模型源自企业,学术界则保持基础研究优势。


模型规模呈指数增长:训练算力每5个月翻番,数据集每8个月扩容一倍。


值得注意的是,头部模型性能差距显著缩小,榜首与第十名得分差已从11.9%降至5.4%。



5. AI逻辑短板,推理能力仍是瓶颈


采用符号推理方法的AI系统,能较好解决IMO问题(虽未达人类顶尖水平),但LLM在MMMU等复杂推理任务中表现欠佳,尤其不擅长算术推导和规划类强逻辑性任务。


这一局限影响了其在医疗诊断等高风险场景的应用可靠性。



6. 大厂ALL in AI,投资与采用率创双纪录


科技大厂们,正全力押注AI。


2024年,美国私营AI投资达1091亿美元,约为中国(93亿)的12倍、英国(45亿)的24倍。


生成式AI势头尤猛,全球私募投资达339亿美元(同比增18.7%)。


与此同时,企业AI采用率从55%升至78%。研究证实,AI不仅能提升生产力,多数情况下还可缩小劳动力技能差距。


更引人注目的是,将生成式AI应用于至少一项业务职能的企业数量激增——从2023年的33%跃升至去年的71%,增幅超一倍。



7. AI荣膺科学界最高荣誉,摘诺奖桂冠


2024年,两项诺贝尔奖分别授予深度学习理论基础(物理学)和蛋白质折叠预测(化学)研究,图灵奖则花落强化学习领域。



8. AI教育普及加速,但资源差距仍存


全球2/3国家已或计划开展K-12计算机科学教育,但非洲地区受限于电力等基础设施,推进缓慢。


美国81%的计算机教师认为AI应纳入基础课程,但仅47%具备相应教学能力。


9. AI正深度融入日常生活


从医疗到交通,AI正快速从实验室走向现实。


1995年,FDA批准了第一款AI赋能的医疗器械。


截至2024年8月,FDA已批准950款AI医疗设备——较2015年的6款和2023年的221款,增长迅猛。


而在自动驾驶领域,汽车已脱离实验阶段:美国头部运营商Waymo每周提供超15万次无人驾驶服务。



10. 全球AI乐观情绪上升,但地区差异显著


中国(83%)、印尼(80%)和泰国(77%)民众对AI持积极态度,而加拿大(40%)、美国(39%)等发达国家则相对保守。


值得关注的是,德国(+10%)、法国(+10%)等原怀疑论国家态度明显转变。



11. 负责任AI生态发展不均


虽然AI安全事件激增,但主流模型开发商仍缺乏标准化评估体系。


HELM Safety、AIR-Bench和FACTS等新基准为事实性与安全性评估提供工具。


企业普遍存在认知与行动脱节,而各国政府加速协作:2024年,经合组织、欧盟等国际机构相继发布聚焦透明度、可信度的治理框架。



· 问题AI数量跃升


根据权威AI危害追踪数据库“AI事件库”(AI Incidents Database)统计,2024年全球AI相关危害事件激增至233起,创下历史新高,较2023年暴涨56.4%。


其中既包括深度伪造私密图像案件,也涉及聊天机器人疑似导致青少年自杀等恶性事件。


尽管该统计未能涵盖全部案例,但已清晰揭示AI技术滥用正在呈现惊人增长态势。



12. 全球监管力度持续加强


2024年美国联邦机构颁布59项AI法规,涉及部门数量翻倍。


75个国家立法机构提及AI频次同比增长21.3%,较2016年增长9倍。


投资方面:加拿大承诺24亿美元,中国设立475亿美元半导体基金,法国投入1090亿欧元,印度拨款12.5亿美元,沙特启动千亿美元级的超越计划。








来源 | 新智元

新媒体编辑 | 王航飞

一审 | 陈旦

二审 | 王辉

三审 | 柴琼颖

延伸阅读
相关推荐
热点推荐
哈文“无脑规则”坑惨央视,13年前造就的错是赵本山“消失”真相

哈文“无脑规则”坑惨央视,13年前造就的错是赵本山“消失”真相

新语爱八卦
2025-05-20 14:41:08
上海飞日本航班急速下降7000米,氧气面罩突然掉落!乘客:“人还在,魂没了”,航司赔偿1.5万日元和住宿费!官方通报

上海飞日本航班急速下降7000米,氧气面罩突然掉落!乘客:“人还在,魂没了”,航司赔偿1.5万日元和住宿费!官方通报

每日经济新闻
2025-07-01 08:09:06
第一次勇敢尝试,“不穿内裤”出门竟让人如此上瘾,性感得太上头了吧!

第一次勇敢尝试,“不穿内裤”出门竟让人如此上瘾,性感得太上头了吧!

背包旅行
2025-07-02 06:22:08
小米YU7翻车,大批消费者退订,友商趁虚而入:愿意帮用户全额补

小米YU7翻车,大批消费者退订,友商趁虚而入:愿意帮用户全额补

小李子体育
2025-07-01 16:11:40
生椰拿铁6.45美元!瑞幸纽约首开两家店,一家距离星巴克不到100米!网友:冰块记得加足

生椰拿铁6.45美元!瑞幸纽约首开两家店,一家距离星巴克不到100米!网友:冰块记得加足

每日经济新闻
2025-07-02 12:38:06
晚清大内高手给许世友表演武功,全场大惊,许世友大喊:看我的!

晚清大内高手给许世友表演武功,全场大惊,许世友大喊:看我的!

巧儿读历史
2025-06-27 14:39:35
当你强大时,连敌人看你都觉得顺眼,小黄人发中方宣传画

当你强大时,连敌人看你都觉得顺眼,小黄人发中方宣传画

三叔的装备空间
2025-06-30 12:04:58
韩庚卢靖姗参加赵梓冲婚礼,韩庚全程护妻,卢靖姗孕6月又瘦又美

韩庚卢靖姗参加赵梓冲婚礼,韩庚全程护妻,卢靖姗孕6月又瘦又美

鑫鑫说说
2025-07-02 10:02:01
乌托邦的四个掘墓人:通往地狱的路,都是由美好的愿望铺成的

乌托邦的四个掘墓人:通往地狱的路,都是由美好的愿望铺成的

尚曦读史
2025-05-15 20:50:03
中方动真格,30国同时收到加税通知,出卖中国讨好特朗普必遭反制

中方动真格,30国同时收到加税通知,出卖中国讨好特朗普必遭反制

别人都叫我阿腈
2025-07-02 10:33:35
王石新造型:头发留长,发色斑白

王石新造型:头发留长,发色斑白

三言科技
2025-07-01 22:26:04
文胖谈步行者失去特纳:如果我是哈利伯顿,此刻我会摔东西泄愤

文胖谈步行者失去特纳:如果我是哈利伯顿,此刻我会摔东西泄愤

雷速体育
2025-07-02 08:27:14
湖人恐怕留不住詹姆斯了!1天内4支球队主动联系,妻子盼明年退役

湖人恐怕留不住詹姆斯了!1天内4支球队主动联系,妻子盼明年退役

十点街球体育
2025-07-01 18:53:17
金正恩跪棺真相:朝工兵扛40%防线,换俄潜艇心脏!

金正恩跪棺真相:朝工兵扛40%防线,换俄潜艇心脏!

春秋回响者
2025-07-02 06:40:03
温网首轮史诗级爆冷!兹维列夫一战出局坦言:从没这么空虚过

温网首轮史诗级爆冷!兹维列夫一战出局坦言:从没这么空虚过

体育妞世界
2025-07-02 10:42:45
“难怪小学女老师,十个有九个单身”,一段聊天记录,揭露了真相

“难怪小学女老师,十个有九个单身”,一段聊天记录,揭露了真相

妍妍教育日记
2025-06-03 20:00:38
马斯克Robotaxi新梦想四部曲:正现金流、吊打Waymo、颠覆Uber及“卖里程”霸主

马斯克Robotaxi新梦想四部曲:正现金流、吊打Waymo、颠覆Uber及“卖里程”霸主

钛媒体APP
2025-07-01 11:14:15
真被中国预测准了:特朗普撒弥天大谎,话音刚落,以色列又挨揍了

真被中国预测准了:特朗普撒弥天大谎,话音刚落,以色列又挨揍了

文辰国学
2025-07-01 12:42:45
女子380万买领导二手房,入住后墙壁发现2瓶汉帝茅台,鉴定后懵了

女子380万买领导二手房,入住后墙壁发现2瓶汉帝茅台,鉴定后懵了

嘉琪Feel
2025-06-24 23:07:01
最近正能量爱国大V们过得有点惨

最近正能量爱国大V们过得有点惨

历史总在押韵
2025-07-01 00:23:42
2025-07-02 13:27:00

头条要闻

牛弹琴:马斯克看到深层危机 伟大的美国正在走向破产

头条要闻

牛弹琴:马斯克看到深层危机 伟大的美国正在走向破产

财经要闻

浙江中涌连环案:诈骗集团狡兔三窟

体育要闻

亚洲人的身体素质,怎么打NBA?

娱乐要闻

陈赫回应“鹿晗患病”,原因惹人怀疑

科技要闻

外媒:马斯克的"重拳" 被小米YU 7打出来了

汽车要闻

比亚迪半年卖了214万辆,海外板块成为最大亮点

态度原创

健康
亲子
旅游
公开课
军事航空

呼吸科专家破解呼吸道九大谣言!

亲子要闻

孩子脸上有青春痘忌口多久才能好

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

普京、马克龙时隔近3年再通话

无障碍浏览 进入关怀版