大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

梁文锋登《自然》封面,曝DeepSeek增量训练成本仅29.4万美元!

网界 2025-09-22


文 / 汪淼

美编 / 顾青青

出品 / 网界

中国团队登上了《自然》封面。

9月18日,由DeepSeek团队研发、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文登上《自然》封面。

但比“登刊”更狠的是,他们干脆自曝家底,DeepSeek-R1的增量训练成本,只要29.4万美元


要知道,过去OpenAI、谷歌练个大模型,动不动烧掉几千万美元。而DeepSeek只用512张英伟达H800显卡、耗时80小时,就完成了核心训练。这笔账,相当于用买一辆跑车的钱,干出了别人盖工厂的活。

更关键的是,《自然》亲自下场盖章,在评论报道文章中用了“里程碑式论文揭示DeepSeekAI模型的秘密”、“创造历史”等词汇表达了对DeepSeek赞赏和肯定。这几乎是在打脸整个行业长期以来的“黑箱操作”。

01

29.4万美元背后

当DeepSeek在论文里写下“29.4万美元”这个数字时,很多人第一反应是:是不是少写了个零?

但数据是实的:512张H800显卡、80小时训练、每GPU小时租赁价2美元。而且,这还只是增量成本,是指在已经花掉600万美元开发的基座模型(DeepSeek-V3base)之上,做强化学习的开销。

为什么这么便宜? 关键是他们用了“纯强化学习”框架(GRPO)。简单说,就是只告诉模型“答案对不对”,而不教它“步骤该怎么写”。模型自己琢磨怎么解题,答对了给奖励,答错了就调整。这种“放养式训练”反而逼出了它的推理能力。


但便宜也引来质疑。年初就有人猜:是不是偷偷用了OpenAI的GPT-4生成数据来做蒸馏? 否则怎么可能这么低成本达到高性能?

这次《自然》论文里,DeepSeek直接回应:训练数据全来自普通网页和电子书,虽然网上可能混了GPT-4生成的内容,但“绝非故意加入”。他们还补充了去污染流程,光数学题就删了600万条可能泄露测试答案的数据。

02

《自然》为什么破例?

AI论文登《自然》不稀奇,但AlphaGo、AlphaFold都是首发。而DeepSeek-R1的论文1月就发在arXiv上,现在却还能上封面,《自然》甚至为它配发社论,这几乎是从未有过的待遇。

原因很简单:它是第一个愿意被“扒光”的大模型。8位评审专家提了上百个问题,从“数据是否污染”到“推理步骤是不是瞎编的”,甚至抠到单词单复数用法。DeepSeek团队写了64页回复,几乎等于重写半篇论文。


比如评审问:“你说模型开源了,但‘开源’定义模糊,到底开了多少?”团队立刻补上数据链接和授权细节。

还有人担心:“模型会不会为了拿奖励乱写步骤?” 他们马上加实验证明“步骤与答案的一致性”。

这种透明,戳中了AI行业的痛点。过去大模型厂商总说自己“遥遥领先”,但测试数据不公开、训练方法遮遮掩掩。《自然》社论说得直接:AI宣传未经证实,可能对社会带来真实风险。

而DeepSeek把代码、数据、训练日志全摊开,等于告诉行业:以后想让人信你,先学我“晒数据”。

03

国产AI芯片的机会来了?

29.4万美元的成本,不仅打了欧美巨头的脸,还可能给国产芯片撕开一道口子。DeepSeek在论文里没提任何芯片公司,但明眼人都能算账:如果训练成本降到原来的十分之一,那是不是用性价比更高的国产芯片也能跑?

华为昇腾、寒武纪这些企业一直被卡在“生态不足”上,客户嫌性能不够稳,不敢大规模用。但如果算法能优化到DeepSeek这个程度,硬件压力会小很多。


DeepSeek创始人梁文锋


事实上,华为和浙大最近已经联合发了基于昇腾芯片的DeepSeek-R1-Safe模型,虽然这是另一个项目,但证明了一件事:国产芯片能扛住千亿级大模型训练。

不过业内人也提醒:这还只是“可能”,不是“必然”。国产芯片真要接住这波机会,还得在软件生态和稳定性上下硬功夫。

总结

开放、透明才是AI的未来

DeepSeek这次登上《自然》封面,不只是一个人的成功,也不只是一个公司的成功。它代表中国AI行业真正走到了世界前沿。

DeepSeek也证明了三件事:第一,大模型不一定靠烧钱,算法优化能大幅降低成本;第二,AI行业不能再闭门吹牛,必须接受同行评审的检验;第三,中国团队有能力从技术追随者变成规则制定者。

但DeepSeek的价值不止于“被膜拜”,《人民日报》说得好:“它的最大价值是被超越。”

如果后续国产模型都能用更低成本、更透明的方式练出来,如果国产芯片能借此打开市场,如果AI研发从此告别“黑箱”走向开放,那今天这篇论文,才会真正变成中国AI的转折点。

毕竟,梁文锋自己说过:“中国AI不能永远做跟随者。”现在,他们真的走到了前沿。

长城魏建军: 电动车相当于啃老,资本已经赚钱走了
11月12日,长城汽车董事长魏建军在欧拉预售发布会上直言,不管纯电还是增程,我们并没有形成商业闭环,假如再过10年还不能闭环,我们这个产业就不好说了。魏建军称,我们国家支持新能源这个产业,但也不可能总是拿财政的钱来支撑你,谁能做这样的买卖,只有父

2025-11-14

阿里抽调上百名工程师秘密办公 攻坚重点项目
一场围绕C端人工智能市场的争夺战正悄然升级。近日,有消息称阿里巴巴已秘密启动“千问”项目,该项目旨在打造一款针对C端用户的AI助手“千问APP”,全面对标ChatGPT。消息还称,“千问”项目由阿里集团最高层直接统筹推进,被内部定义为“AI时代决定未来的关

2025-11-14

王振辉接替胡伟出任京东物流CEO
11月13日,京东物流发布公告称,胡伟已辞任执行董事、首席执行官(CEO)及授权代表,自2025年11月13日起生效,原因为彼将于京东集团有其他任职。同时,王振辉被委任为公司执行董事、首席执行官及授权代表,自2025年11月13日起生效。京东物流还称,胡伟已确认,

2025-11-14

EDA巨头新思科技裁员2000人 遣散赔偿25亿进行重组
近日,全球EDA领先企业Synopsys(新思科技)向监管机构提交文件,宣布将裁员约10%,涉及员工约2000名。新思科技指出,此次重组旨在优化资源配置,将投资重点转向人工智能芯片设计与系统模拟软件等高增长领域。这也是该公司完成对Ansys收购后的关键战略调整之一

2025-11-14

三七互娱造假七年 罚款却不如高管一季分红
文 / 汪淼美编 / 沈谨瑜出品 / 网界财经10月31日,A股游戏巨头三七互娱发布公告,收到了证监会出具的《行政处罚事先告知书》。这纸迟到两年半的罚单,揭开了三七互娱从2014年借壳上市至2021年长达七年的信息披露违法违规真相。经证监会查明,三七互娱不仅存在

2025-11-14

美的高管团队换血 75后老将任空调一把手
11月11日,美的集团发布“关于智能家居事业群部分人事任命的决定”,涉及多名核心高管职位调整。其中,原集团副总裁兼中国区域总裁柏林正式担任国际美洲区域总裁。距离他10月底卸下中国区总裁职务仅过去半个月时间,而接棒中国区业务管理工作的,是来自小天鹅

2025-11-14

向凌云院士:以学术厚度与创新广度定义未来科技金融格局
在全球科技与金融融合的时代浪潮中,向凌云博士、教授,以卓越的跨学科研究成果与持续的学术出版实践,树立了“人工智能 + 医疗技术 + 金融创新”领域的国际标杆。他不仅是学者,更是思想的实践者和创新的引领者——英国皇家学会工艺院终身院士、吉尔吉斯斯坦

2025-11-14

贾跃亭:当年乐视所向披靡,小米在我们面前没有还手之力
11月11日,抖音账号@未来主义者联盟发布的一段视频引发行业热议。视频中,贾跃亭谈及当年乐视与小米的竞争时直言:“(当年)小米在我们面前根本没有还手之力。”贾跃亭强调,当时乐视这种“崩塌”,不是因为产品不行、技术不行、没有用户。而恰恰相反,产品极

2025-11-13