您的位置:首页 >资讯 > 国内 >

DeepSeek颠覆了什么?——大模型“国产之光”破局的启示

2025-02-07 10:49:29    来源:经济参考报

一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵“海啸”。

短短30天,中国初创企业深度求索(DeepSeek)先后发布两款性能比肩GPT-4o的大模型,“1/18的训练成本、1/10的团队规模、不分伯仲的模型性能”令硅谷大受震撼。

最新一期《经济学人》封面文章第一时间让位给这一土生土长的国产大模型:《低成本中国模型的成功动摇美国科技优势》。很快,华尔街也同样感受到了这种被动摇的震感。

事实上,这匹黑马的贡献绝非“低成本”这一个标签所能概括。它不仅重新定义了大模型的生产函数,还将重新定义计算。

不论开源与闭源未来的优势如何,这股冲击波都将迫使全球科技界重新思考:当“规模定律”与“生态壁垒”不再绝对,什么才是下一赛季AI竞争的核心?或许我们能从中获得新的启示。

击穿三大定式

1月下旬,DeepSeek在中区、美区苹果AppStore下载榜单中登顶,超越ChatGPT、谷歌Gemini等全球顶尖科技巨头研发的模型产品。具体而言,它颠覆了什么?

——打破“越强越贵”的成本诅咒

价格感人是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元,而o1模型上述三项服务的定价分别是55元、110元、438元。

凡是使用过几款大模型的用户很快就能形成这样一个共识:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答问题之前还能给出它的推理过程和思考链路。AI投资机构MenloVentures负责人Deedy对比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更长、推理性能更佳。低成本比肩o1模型,令硅谷的“烧钱模式”一时间遭到猛烈质疑。

然而在过去,大模型服务是标准的“一分钱一分货”,想要用上更优性能的产品必须支付更高昂的费用,以覆盖整个模型训练过程中更高算力成本的支出。

——超越“性能-成本-速度”的不可能三角

当硅谷仍在为GPU万卡集群豪掷千亿资金时,一群土生土长的中国年轻人用557.6万美元证明:AI大模型的比拼或许并不只靠规模,更重要的是看实际效果。有句话形象地概括出DeepSeek的优势:“不是GPT用不起,而是DeepSeek更具性价比。”

传统模型训练,需要在性能、成本、速度之间权衡,其高性能的获得,需要极高的成本投入、更漫长的计算时间。而DeepSeek重构了大模型的“成本-性能”曲线,同时压缩了计算周期。

根据DeepSeek技术报告,DeepSeek-V3模型的训练成本为557.6万美元,训练使用的是算力受限的英伟达H800GPU集群。相比之下,同样是开源模型的Meta旗下Llama-3.1模型的训练成本超过6000万美元,而OpenAI的GPT-4o模型的训练成本为1亿美元,且使用的是性能更加优异的英伟达H100GPU集群。而使用过程中,DeepSeek给出反馈的时长也大部分控制在5秒至35秒之间,通过算法轻量化、计算效率最大化、资源利用率优化,成功压缩了计算时间,降低了延迟。

——走出“参数膨胀”陷阱

ChatGPT横空出世后700多天里,全球人工智能巨头不约而同走上了一条“大力出奇迹”的“暴力美学”路线,参数越“炼”越大,给算力、数据、能耗带来了极大压力。很长一段时间,参数几乎成为大模型厂商比拼的最大焦点。

而另辟蹊径的DeepSeek恰巧处于对角线的另一端:并不盲目追求参数之大,而是选择了一条通过探索更高效训练方法以实现性能提升的“小而精”路线,打破了“参数膨胀”的惯性。

例如DeepSeek-R1(4B参数)在数学推理、代码生成等任务上具有比肩70B参数模型(如Llama-2)的能力,通过算法优化、数据质量提升,小参数模型一样能实现高性能,甚至能够“四两拨千斤”。

实现三大跃升

“DeepSeek出圈,很好地证明了我们的竞争优势:通过有限资源的极致高效利用,实现以少胜多。中国与美国在AI领域的差距正在缩小。”面壁智能首席科学家刘知远说。

算力封锁下的有力破局,得益于DeepSeek技术架构、数据策略、工程实践三方面的关键突破。

——技术架构:重新定义参数效率

大模型的千亿参数不应是冰冷的数字堆砌,而应是巧夺天工般地重组整合。

传统大模型Transformer架构好比一条承载车辆的高速公路,当车辆(数据)数量足够多的时候,每辆车必须和前后所有车沟通完成才能继续行驶(计算),导致堵车(计算慢、能耗高)。而DeepSeek创新的架构则把一条串行的高速路,变成了一个辐射状的快递分拣中心,先把货物(数据)按类型分类打包,再分不同路线同时出发开往不同目的地,每辆货车(计算)只需选择最短路径。因此既能提高速度又能节约能耗。

——数据策略:质量驱动的成本控制

DeepSeek研发团队相信,用“炼数据”取代“堆数据”,能使训练更具效率。

传统的数据策略好比去农场随便采捡,常有价值不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技术,有针对性地筛选掉质量不高的烂菜叶:一方面自动识别高价值数据片段(如代码逻辑推理链),相比随机采样训练效率提升3.2倍,另一方面通过对抗训练生成合成数据,将高质量代码数据获取成本从每100个tokens的0.8元降低至0.12元。

——工程实践:架起“超级工厂”流水线

大模型传统的训练方式好比手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相当于一方面通过流水线并行把造车流程拆分为10个步骤,同时组装10辆车(数据分块处理),另一方面通过张量并行,把发动机拆成零件,分给10个工厂同时生产(模型分片计算)。

至于推理过程,传统模型好比现点现做的餐厅,客户等菜时间长,推理过程慢。而DeepSeek采用的INT4量化,能把复杂菜品提前做成预制菜,加热(计算)时间减半,口味损失不到5%,实现了大模型的低成本工业化。

超越技术的启示

拆解DeepSeek的成功公式不难发现,通过底层架构创新降低AGI成本,同时以开源策略构建生态护城河,提供了中小型机构突破算力限制的可行路径。此外,我们还能从中得到一些超越技术的启示。

一直以来,驱动DeepSeek的目标并非利润而是使命。“探索未至之境”的愿景也指向一种与之匹配的极简且清爽的组织架构。

一名人工智能科学家表示,在人工智能大模型领域,大厂、高校、传统科研机构、初创公司在资源禀赋上其实各有优势,但结构性的局限很难扭转。DeepSeek这种类型的初创公司能很好地弥补其中的一个缺位——具有大工程能力、不受制于短视商业逻辑的创新定力、创业团队扁平化组织机制带来的丝滑流畅的协作度。

据不具名人士透露,其V3模型的关键训练架构MLA就源于一位年轻研究员的个人兴趣,经过研判后DeepSeek组建了专项团队开展大规模验证与攻关。而R1模型果断调整强化学习路线,领先于其他机构实现了近似o1的推理能力,核心原因之一也归功于其青年团队对前沿技术的敏锐嗅觉与大胆尝试。

“我们创新缺少的不是资本,而是信心,以及组织高密度人才的能力,调动他们高效地进行创造力与好奇心驱动的创新。”DeepSeek创始人梁文锋说。

在DeepSeek身上,我们看到了皮克斯动画工作室的影子。这个年轻的中国初创企业与那个创作27部长片有19部获得奥斯卡最佳动画、同样以创新为鲜明标签的组织,有着不谋而合的组织机制与范式选择,以及由此带来的高企的创新成功率与人才留存率。

不同于先发者略显封锁的护城堡垒,DeepSeek赢得赞誉的还有它的开源路线。将代码、模型权重和训练日志全部公开,不仅需要格局,更需要勇气与实力。

“在颠覆性技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”梁文锋这样解释选择开源的原因,“开源、发论文,其实并不会失去什么。对于技术人员来说,被follow(追随模仿)是很有成就感的事。”

从技术到愿景,DeepSeek坚定选择的始终是一条难且正确的路。这也是为什么,即便别国在人工智能领域已坐享先发优势,后发者依然有机会凭借技术创新、成本革命打破大模型竞争的传统逻辑,打破人工智能行业竞争格局,打破“他国更擅长从0到1的原始创新,而中国更擅长从1到10的应用创新”的成见,重塑竞争优势的奥秘。

北京时间2月1日凌晨,在OpenAI发布其推理系列最新模型o3-mini时,我们从中看到了一个熟悉的字眼:“Deepresearch”。这是否是国产之光“被follow”的开端尽管不好断言,但我们至少身体力行走出了一条“大力出奇迹”之外,另一条具有自主创新基因的制胜之道。

正如梁文锋此前接受采访时所说,“中国要逐步成为贡献者,而不是一直‘搭便车’。”

标签:

相关阅读

精彩放送

今日视点:中长期资金入市总量持续提升可期

银行纷纷启动首季“开门红”活动 贷款项目储备充足投放良好

AI眼镜赛道火热 “百镜大战”一触即发?

工业和信息化部:2024年我国手机产量16.7亿台

绿皮车上,守护乡愁与希望

2024年全社会用电量同比增6.8%

南粤空港国门“春天的故事”

春节假期全国口岸日均出入境人员将达185万人次

数智检修迎春运首秀

我国建立世界第一套微波亮温度国家计量基准

迄今最精细黑猩猩脑图谱发布

全国首家AI医院将面向公众开放,AI会取代医生吗?

呼吸道感染康复期用药“益气清肺颗粒”获批上市

2025,人工智能走向何方?我们如何拥抱变化?

算力交易“电商平台”来了!

逐浪AI大潮,中国向新而生

中国科技企业宜以AI为桨高质量“出海”

浙江:去年数字经济核心产业增加值增长8%左右

中国电子云可信数据空间解决方案发布

机器学习助力多种癌症早期筛查

全国青少年科技创新大赛不再接受15岁以下少年儿童参赛

日本人工智能应用潜力仍存

强化数智赋能制造业蝶变升级

2025流行色 摩卡慕斯

骆驼牵手中国科学探险协会,制定《多场景下户外冲锋衣服装分级评价标准》

“可爱经济”为什么惹人爱?

“冰雪热”释放新动能

春节宠物寄养咨询火爆 宠物主人盼携宠便捷出行

滑雪装备市场开“卷” 不断扩张的Nobaday瞄准线下门店

“谷子经济”受中国年轻人追捧 驱动城市产业发展

转型未见效,太平鸟业绩再下滑

新消费观察 | 专业与时尚齐飞 国货品牌掀起户外新风潮

着力培育服饰消费新增长点

广汽丰田把高阶智驾价格打下来了

一汽奥迪持续“增点扩面”,一季度将新增10家经销商门店

冰雪撒欢之旅,解锁捷途自由者的硬派越野真实力

鸿蒙智行2025年新车规划曝光!除了问界M8,这些车同样值得期待

站上600万辆新台阶!中国蝉联全球最大汽车出口国

"国Ⅳ"车辆纳入报废补贴 车市加速驶过"过渡期"

寒区试车让“冷资源”点燃“热引擎”

加拿大将暂停电动汽车激励计划

特斯拉全球汽车销量首次超过奥迪

年终讲丨四大维度“突破”,一汽-大众全新班底破旧立新

爱奇艺与红果短剧宣布达成深度合作 共同推出精品微短剧

第十届“ME计划”资助仪式在京举行

突破43万亿元!2024年我国外贸规模再创新高

春运开启,以精准调控缓解“抢票难”

中国汽车产销连续16年居全球首位

“碳账户+碳征信”,让企业有了绿色融资通道

餐饮企业“花式”抢滩年夜饭市场

AI“破圈”加速步入物理世界

助力经济回升向好 支持高质量发展 ——2024年,金融总量合理增长,结构加快优化

冰雪“热”了 经济“火”了!冰雪产业新工种了解一下

小泉水大生意,热资源成就“暖”经济

新春走基层丨一路欢歌一路情——中老铁路上的跨国文化联欢演出

“一签多行”等政策助力内地与港澳居民“双向奔赴”持续升温

年货消费市场日渐红火升腾“烟火气” 助农增收涌动蓬勃活力

“最可爱的人”肩负重任坚守执勤一线 确保人民群众出行安全

众多旅游城市“圈粉”外国游客 独特城市魅力成为文旅“金名片”

“一周一行”“一签多行”等便利措施效果显著 赴港澳客流量增幅明显

传统非遗技艺亮相火车站 与旅客共赴“非遗年味”春运之行

2024年共6.1亿人次出入境 “中国游”持续火热

春运开启,全国铁路实施新运行图

春节将至,出入境人数不断攀升

“周五下班去中国”成国际新潮

说来就来的旅行 “周五下班去中国”成为国际新热潮

冰雪游碰上亚冬会 哈尔滨铁路春运如何接招?

【开创高质量发展新局面】2024年我国社会融资规模保持合理增长

启程回家!春运回家路 有“速度”更有“温度”

全球旅游达人山西感受热情中国年

以文旅“出圈”促进区域经济高质量发展

“流动的中国”活力满满——春运首日一线观察

“最美基层民警”沈刚:“勇”护百姓 “智”守安全

冰雪“热”了 经济“火”了!冰雪产业新工种了解一下

出行有保障!临近春节车站服务上新 旅客心里很踏实

乡村行·看振兴丨山西柳林:冬日里的小“莓”好

新春走基层|海拔2800米!这条高寒特长隧道里藏着守护与思念

文化中国行丨沉浸式体验“春节”之美 这个馆一次看过瘾

我国每万人口高价值发明专利拥有量达14件

家门口更有“医”靠——多地深入推进紧密型县域医共体建设观察

心血管要这样“保暖”

叮咚,寒假甲流防治指南,请查收

权威医者说|得了流感该怎么办?

解决婚姻家庭纠纷,最新司法规定来了!

RockAI携手黑芝麻智能打造全新AI Agent解决方案

见证湾区新势力|横琴口岸·琴鸣广场启业仪式暨大横琴商业“琴鸣”系列品牌发布

浙江金欣集团鼓励百万大学生兼职创业,家庭享实惠

都乐携比利时国宝级联名啤梨Olé首发,蓝精灵啤梨带来“梨”享轻生活!

销量/保值率/品质的王者,MPV界的“全能选手”!

中国汽车工业协会越野车分会2025会员大会暨换届大会成功召开

激发“年货经济”消费潜力,顺丰赋能“蒙”字号农产品出圈出彩

云酒头条评出2024酒业十大热点事件

君乐宝集团向日喀则震区捐赠价值500万元物资

恶性肿瘤威胁健康,谢启超医生教你科学防癌

扬子江药业集团捐赠100万元药品驰援西藏日喀则地震灾区

百架无人机升空点亮情城夜幕,浪漫康定为您送上新年的第一份祝福!

联发科与NVIDIA合作 为NVIDIA 个人AI超级计算机设计NVIDIA GB10超级芯片

德铁信可开通“鄂州 - 法兰克福”货运航线,助力中欧航空物流网络建设

伊顿与国轩高科达成战略合作,共绘绿色能源未来

《酱香威士忌团体标准》正式发布

当前儿童呼吸道感染有哪些特点?家长应该注意什么?专家建议

故宫博物院携手苏州湾数字艺术馆,共启“‘纹’以载道——故宫沉浸式数字体验展”

我与国家一起前行丨中国唢呐成新“顶流” 乡土乐器也能吹出国际范儿

新华社经济随笔:车企驶入“人形机器人”赛道的背后

北京市出台自动驾驶汽车条例 支持用于个人乘用车、城市公共汽电车等服务

各行各业积极因素不断涌现实现“开门红” 中国经济热度稳步提升

女人过了40岁穿衣别纠结,真该试试这些穿搭,温柔又显女人味

伊姐周日热推:电视剧《千朵桃花一世开》;综艺《你们说了算》......