大旗号
科技 汽车 财经 数码 时尚 旅游 美文 美食 其它

梁文锋登《自然》封面,曝DeepSeek增量训练成本仅29.4万美元!

网界 2025-09-22


文 / 汪淼

美编 / 顾青青

出品 / 网界

中国团队登上了《自然》封面。

9月18日,由DeepSeek团队研发、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文登上《自然》封面。

但比“登刊”更狠的是,他们干脆自曝家底,DeepSeek-R1的增量训练成本,只要29.4万美元


要知道,过去OpenAI、谷歌练个大模型,动不动烧掉几千万美元。而DeepSeek只用512张英伟达H800显卡、耗时80小时,就完成了核心训练。这笔账,相当于用买一辆跑车的钱,干出了别人盖工厂的活。

更关键的是,《自然》亲自下场盖章,在评论报道文章中用了“里程碑式论文揭示DeepSeekAI模型的秘密”、“创造历史”等词汇表达了对DeepSeek赞赏和肯定。这几乎是在打脸整个行业长期以来的“黑箱操作”。

01

29.4万美元背后

当DeepSeek在论文里写下“29.4万美元”这个数字时,很多人第一反应是:是不是少写了个零?

但数据是实的:512张H800显卡、80小时训练、每GPU小时租赁价2美元。而且,这还只是增量成本,是指在已经花掉600万美元开发的基座模型(DeepSeek-V3base)之上,做强化学习的开销。

为什么这么便宜? 关键是他们用了“纯强化学习”框架(GRPO)。简单说,就是只告诉模型“答案对不对”,而不教它“步骤该怎么写”。模型自己琢磨怎么解题,答对了给奖励,答错了就调整。这种“放养式训练”反而逼出了它的推理能力。


但便宜也引来质疑。年初就有人猜:是不是偷偷用了OpenAI的GPT-4生成数据来做蒸馏? 否则怎么可能这么低成本达到高性能?

这次《自然》论文里,DeepSeek直接回应:训练数据全来自普通网页和电子书,虽然网上可能混了GPT-4生成的内容,但“绝非故意加入”。他们还补充了去污染流程,光数学题就删了600万条可能泄露测试答案的数据。

02

《自然》为什么破例?

AI论文登《自然》不稀奇,但AlphaGo、AlphaFold都是首发。而DeepSeek-R1的论文1月就发在arXiv上,现在却还能上封面,《自然》甚至为它配发社论,这几乎是从未有过的待遇。

原因很简单:它是第一个愿意被“扒光”的大模型。8位评审专家提了上百个问题,从“数据是否污染”到“推理步骤是不是瞎编的”,甚至抠到单词单复数用法。DeepSeek团队写了64页回复,几乎等于重写半篇论文。


比如评审问:“你说模型开源了,但‘开源’定义模糊,到底开了多少?”团队立刻补上数据链接和授权细节。

还有人担心:“模型会不会为了拿奖励乱写步骤?” 他们马上加实验证明“步骤与答案的一致性”。

这种透明,戳中了AI行业的痛点。过去大模型厂商总说自己“遥遥领先”,但测试数据不公开、训练方法遮遮掩掩。《自然》社论说得直接:AI宣传未经证实,可能对社会带来真实风险。

而DeepSeek把代码、数据、训练日志全摊开,等于告诉行业:以后想让人信你,先学我“晒数据”。

03

国产AI芯片的机会来了?

29.4万美元的成本,不仅打了欧美巨头的脸,还可能给国产芯片撕开一道口子。DeepSeek在论文里没提任何芯片公司,但明眼人都能算账:如果训练成本降到原来的十分之一,那是不是用性价比更高的国产芯片也能跑?

华为昇腾、寒武纪这些企业一直被卡在“生态不足”上,客户嫌性能不够稳,不敢大规模用。但如果算法能优化到DeepSeek这个程度,硬件压力会小很多。


DeepSeek创始人梁文锋


事实上,华为和浙大最近已经联合发了基于昇腾芯片的DeepSeek-R1-Safe模型,虽然这是另一个项目,但证明了一件事:国产芯片能扛住千亿级大模型训练。

不过业内人也提醒:这还只是“可能”,不是“必然”。国产芯片真要接住这波机会,还得在软件生态和稳定性上下硬功夫。

总结

开放、透明才是AI的未来

DeepSeek这次登上《自然》封面,不只是一个人的成功,也不只是一个公司的成功。它代表中国AI行业真正走到了世界前沿。

DeepSeek也证明了三件事:第一,大模型不一定靠烧钱,算法优化能大幅降低成本;第二,AI行业不能再闭门吹牛,必须接受同行评审的检验;第三,中国团队有能力从技术追随者变成规则制定者。

但DeepSeek的价值不止于“被膜拜”,《人民日报》说得好:“它的最大价值是被超越。”

如果后续国产模型都能用更低成本、更透明的方式练出来,如果国产芯片能借此打开市场,如果AI研发从此告别“黑箱”走向开放,那今天这篇论文,才会真正变成中国AI的转折点。

毕竟,梁文锋自己说过:“中国AI不能永远做跟随者。”现在,他们真的走到了前沿。

胖东来销售额突破200亿 于东来又“焦虑了”
出品/网界财经 作者/顾青青12月30日,胖东来对外公布全年销售数据,截至12月29日,胖东来实现销售额约234.09亿元。这个数字本身已经足够惊人,要知道,胖东来只在河南许昌和新乡两地运营,门店总数不过十余家,每周二固定闭店,春节还放五天假。更关键的是,

2026-01-01

孟晚舟的新年致辞 透露了华为哪些关键信号?
出品/网界 作者/阿深12月30日,华为轮值董事长孟晚舟在题为《追风赶月莫停留,平芜尽处是春山》的2026年新年致辞里,把一句话说得很直白:“智能时代的新征程已经开启。”我更愿意把它当成一次“对外的宣言”,也是“对内的提醒”:别再用过去的胜利当指南针

2026-01-01

董明珠回应智能化替代工人争议:格力绝不裁员
12月29日,“筑基强国路——中国制造‘十四五’成就展”在中国国家博物馆开幕。开幕式结束后,格力电器董事长董明珠在展区接受媒体采访。谈及智能化是否会“取代工人”,董明珠表示,现在很多机构都在研究人形机器人,当机器已经可以完全替代人工,其形态究竟

2026-01-01

从马德里到世界:概念180以“系统营养抗衰”重塑全球抗衰版图
一个源自西班牙的护肤理念,正以科学与耐心对抗时间引力。当全球抗衰市场还在追捧“成分神话”与“即刻修护”时,一个来自西班牙马德里的品牌,早已悄悄开启了一场从内到外的抗衰革命。概念180,这个承载着三十年科研沉淀与欧洲营养美学的品牌,正以“系统营

2025-12-31

董宇辉直播间亿元沙发陷“代工”质疑,最新回应来了
12月11日,头部主播董宇辉在“与辉同行”进行了一场持续5个半小时的家居专场直播,累计销售额达3.56亿元。其中,顾家家居一款功能沙发单品成交额突破1亿元,迅速引发市场关注。但在随后的半个多月里,围绕约3万套沙发“能否造得出、谁来造”的讨论在供应链圈

2025-12-31

智谱香港IPO拟发行逾3700万股 发行价116.2港元
12月30日,北京智谱华章科技股份有限公司(以下简称“智谱”)在港交所发布公告称,公司拟在香港发行37,419,500股H股 (视乎发售量调整权及超额配股权行使与否而定),发行价为116.2港元/股,预计 H股于明年1月8日开始交易 。在监管层面,中国证监会国际合作司已

2025-12-31

扎克伯格数十亿美元收购Manus 肖弘出任Meta副总裁
Meta在AI领域再下一城。12月30日,据报道,Meta以数十亿美元价格收购AI应用Manus的公司蝴蝶效应。据悉,这是Meta成立以来第三大收购,金额规模仅次于Whats App与Scale AI,也被视为马克·扎克伯格推进“超级智能”战略的关键一步。有知情人士透露,在被Meta收

2025-12-31

360荣获海南省科学技术进步一等奖
近日,2024年度海南省科学技术奖获奖情况正式揭晓。360与海南大学、中国人民解放军国防科技大学等单位联合申报的“大规模网络安全态势智能监控系统关键技术与应用”项目,获得海南省科学技术进步一等奖。这一荣誉是对360在安全领域持续深耕、突破创新的权威认

2025-12-30

京东的兄弟们又享福了,刘强东真兄弟!
作者 / 老王 出品 / 网界12月下旬,当多数互联网公司还在为“要不要发年终奖”犹豫不决时,京东的奖金方案已经出来了。(在文章底部)京东超92%的员工能拿全薪或更高,采销岗平均25薪、上不封顶,部分高绩效员工全年收入相当于24个月工资。这不是画大饼,是写

2025-12-30