国产大模型破局启示:DeepSeek颠覆了什么?
一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵“海啸”。
短短30天,中国初创企业深度求索(DeepSeek)先后发布两款性能比肩GPT-4o的大模型,“1/18的训练成本、1/10的团队规模、不分伯仲的模型性能”令硅谷大受震撼。
最新一期《经济学人》封面文章第一时间让位给这一土生土长的国产大模型:《低成本中国模型的成功动摇美国科技优势》。很快,华尔街也同样感受到了这种被动摇的震感。
事实上,这匹黑马的贡献绝非“低成本”这一个标签所能概括。它不仅重新定义了大模型的生产函数,还将重新定义计算。
不论开源与闭源未来的优势如何,这股冲击波都将迫使全球科技界重新思考:当“规模定律”与“生态壁垒”不再绝对,什么才是下一赛季AI竞争的核心?或许我们能从中获得新的启示。
击穿三大定式
1月下旬,DeepSeek在中区、美区苹果App Store下载榜单中登顶,超越ChatGPT、谷歌Gemini等全球顶尖科技巨头研发的模型产品。具体而言,它颠覆了什么?
——打破“越强越贵”的成本诅咒
价格感人是让DeepSeek快速出圈的第一个标签。DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,而o1模型上述三项服务的定价分别是55元、110元、438元。
凡是使用过几款大模型的用户很快就能形成这样一个共识:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答问题之前还能给出它的推理过程和思考链路。AI投资机构Menlo Ventures负责人Deedy对比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更长、推理性能更佳。低成本比肩o1模型,令硅谷的“烧钱模式”一时间遭到猛烈质疑。
然而在过去,大模型服务是标准的“一分钱一分货”,想要用上更优性能的产品必须支付更高昂的费用,以覆盖整个模型训练过程中更高算力成本的支出。
——超越“性能-成本-速度”的不可能三角
当硅谷仍在为GPU万卡集群豪掷千亿资金时,一群土生土长的中国年轻人用557.6万美元证明:AI大模型的比拼或许并不只靠规模,更重要的是看实际效果。有句话形象地概括出DeepSeek的优势:“不是GPT用不起,而是DeepSeek更具性价比。”
传统模型训练,需要在性能、成本、速度之间权衡,其高性能的获得,需要极高的成本投入、更漫长的计算时间。而DeepSeek重构了大模型的“成本-性能”曲线,同时压缩了计算周期。
根据DeepSeek技术报告,DeepSeek-V3模型的训练成本为557.6万美元,训练使用的是算力受限的英伟达H800 GPU集群。相比之下,同样是开源模型的Meta旗下Llama-3.1模型的训练成本超过6000万美元,而OpenAI的GPT-4o模型的训练成本为1亿美元,且使用的是性能更加优异的英伟达H100 GPU集群。而使用过程中,DeepSeek给出反馈的时长也大部分控制在5秒至35秒之间,通过算法轻量化、计算效率最大化、资源利用率优化,成功压缩了计算时间,降低了延迟。
——走出“参数膨胀”陷阱
ChatGPT横空出世后700多天里,全球人工智能巨头不约而同走上了一条“大力出奇迹”的“暴力美学”路线,参数越“炼”越大,给算力、数据、能耗带来了极大压力。很长一段时间,参数几乎成为大模型厂商比拼的最大焦点。
而另辟蹊径的DeepSeek恰巧处于对角线的另一端:并不盲目追求参数之大,而是选择了一条通过探索更高效训练方法以实现性能提升的“小而精”路线,打破了“参数膨胀”的惯性。
例如DeepSeek-R1(4B参数)在数学推理、代码生成等任务上具有比肩70B参数模型(如Llama-2)的能力,通过算法优化、数据质量提升,小参数模型一样能实现高性能,甚至能够“四两拨千斤”。
实现三大跃升
“DeepSeek出圈,很好地证明了我们的竞争优势:通过有限资源的极致高效利用,实现以少胜多。中国与美国在AI领域的差距正在缩小。”面壁智能首席科学家刘知远说。
算力封锁下的有力破局,得益于DeepSeek技术架构、数据策略、工程实践三方面的关键突破。
——技术架构:重新定义参数效率
大模型的千亿参数不应是冰冷的数字堆砌,而应是巧夺天工般地重组整合。
传统大模型Transformer架构好比一条承载车辆的高速公路,当车辆(数据)数量足够多的时候,每辆车必须和前后所有车沟通完成才能继续行驶(计算),导致堵车(计算慢、能耗高)。而DeepSeek创新的架构则把一条串行的高速路,变成了一个辐射状的快递分拣中心,先把货物(数据)按类型分类打包,再分不同路线同时出发开往不同目的地,每辆货车(计算)只需选择最短路径。因此既能提高速度又能节约能耗。
——数据策略:质量驱动的成本控制
DeepSeek研发团队相信,用“炼数据”取代“堆数据”,能使训练更具效率。
传统的数据策略好比去农场随便采捡,常有价值不高的烂菜叶(低质量数据)。而DeepSeek创新的数据蒸馏技术,有针对性地筛选掉质量不高的烂菜叶:一方面自动识别高价值数据片段(如代码逻辑推理链),相比随机采样训练效率提升3.2倍,另一方面通过对抗训练生成合成数据,将高质量代码数据获取成本从每100个tokens的0.8元降低至0.12元。
——工程实践:架起“超级工厂”流水线
大模型传统的训练方式好比手工造车,一次只能装配一台,效率低下。而DeepSeek的3D并行相当于一方面通过流水线并行把造车流程拆分为10个步骤,同时组装10辆车(数据分块处理),另一方面通过张量并行,把发动机拆成零件,分给10个工厂同时生产(模型分片计算)。
至于推理过程,传统模型好比现点现做的餐厅,客户等菜时间长,推理过程慢。而DeepSeek采用的INT4量化,能把复杂菜品提前做成预制菜,加热(计算)时间减半,口味损失不到5%,实现了大模型的低成本工业化。
超越技术的启示
拆解DeepSeek的成功公式不难发现,通过底层架构创新降低AGI成本,同时以开源策略构建生态护城河,提供了中小型机构突破算力限制的可行路径。此外,我们还能从中得到一些超越技术的启示。
一直以来,驱动DeepSeek的目标并非利润而是使命。“探索未至之境”的愿景也指向一种与之匹配的极简且清爽的组织架构。
一名人工智能科学家表示,在人工智能大模型领域,大厂、高校、传统科研机构、初创公司在资源禀赋上其实各有优势,但结构性的局限很难扭转。DeepSeek这种类型的初创公司能很好地弥补其中的一个缺位——具有大工程能力、不受制于短视商业逻辑的创新定力、创业团队扁平化组织机制带来的丝滑流畅的协作度。
据不具名人士透露,其V3模型的关键训练架构MLA就源于一位年轻研究员的个人兴趣,经过研判后DeepSeek组建了专项团队开展大规模验证与攻关。而R1模型果断调整强化学习路线,领先于其他机构实现了近似o1的推理能力,核心原因之一也归功于其青年团队对前沿技术的敏锐嗅觉与大胆尝试。
“我们创新缺少的不是资本,而是信心,以及组织高密度人才的能力,调动他们高效地进行创造力与好奇心驱动的创新。”DeepSeek创始人梁文锋说。
在DeepSeek身上,我们看到了皮克斯动画工作室的影子。这个年轻的中国初创企业与那个创作27部长片有19部获得奥斯卡最佳动画、同样以创新为鲜明标签的组织,有着不谋而合的组织机制与范式选择,以及由此带来的高企的创新成功率与人才留存率。
不同于先发者略显封锁的护城堡垒,DeepSeek赢得赞誉的还有它的开源路线。将代码、模型权重和训练日志全部公开,不仅需要格局,更需要勇气与实力。
“在颠覆性技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”梁文锋这样解释选择开源的原因,“开源、发论文,其实并不会失去什么。对于技术人员来说,被follow(追随模仿)是很有成就感的事。”
从技术到愿景,DeepSeek坚定选择的始终是一条难且正确的路。这也是为什么,即便别国在人工智能领域已坐享先发优势,后发者依然有机会凭借技术创新、成本革命打破大模型竞争的传统逻辑,打破人工智能行业竞争格局,打破“他国更擅长从0到1的原始创新,而中国更擅长从1到10的应用创新”的成见,重塑竞争优势的奥秘。
北京时间2月1日凌晨,在OpenAI发布其推理系列最新模型o3-mini时,我们从中看到了一个熟悉的字眼:“Deep research”。这是否是国产之光“被follow”的开端尽管不好断言,但我们至少身体力行走出了一条“大力出奇迹”之外,另一条具有自主创新基因的制胜之道。
正如梁文锋此前接受采访时所说,“中国要逐步成为贡献者,而不是一直‘搭便车’。”
标签:
相关阅读
-
DeepSeek有望激发新一波人工智能创新浪潮
中国人工智能(AI)企业深度求索(DeepSeek)日前发布其最新开源模型Dee... -
英媒: DeepSeek打破美对AI话语权垄断
英国《卫报》网站日前刊文指出,中国人工智能(AI)企业深度求索(Deep... -
国产大模型破局启示:DeepSeek颠覆了什么?
一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵海... -
家用市场期待机器人来“敲门”
挪威机器人初创公司1X科技研发的家用双足人形机器人NEO Beta,可冲... -
应用为先 深圳打造人工智能先锋城市
AI检测一体机大幅提升车企产线效率,发布近200个城市+AI应用场景清... -
现象级的科技飞跃:相信光 追逐光
从DeepSeek横空出世,到登上春晚舞台扭起秧歌的宇树机器人;从以动画...
精彩放送
-
人形机器人产业发展提速 多家公司透露...
近期,人形机器人行业接连迎来利好消息,产业链多家上市公司纷纷透... -
DeepSeek有望激发新一波人工智能创新浪潮
中国人工智能(AI)企业深度求索(DeepSeek)日前发布其最新开源模型Dee... -
英媒: DeepSeek打破美对AI话语权垄断
英国《卫报》网站日前刊文指出,中国人工智能(AI)企业深度求索(Deep... -
国产大模型破局启示:DeepSeek颠覆了什么?
一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵海... -
家用市场期待机器人来“敲门”
挪威机器人初创公司1X科技研发的家用双足人形机器人NEO Beta,可冲... -
应用为先 深圳打造人工智能先锋城市
AI检测一体机大幅提升车企产线效率,发布近200个城市+AI应用场景清... -
现象级的科技飞跃:相信光 追逐光
从DeepSeek横空出世,到登上春晚舞台扭起秧歌的宇树机器人;从以动画... -
人工智能体产业风口已至
近段时间,人工智能体(AI Agent)这一新名词开始频繁出现在公众视野... -
运营商“二次号码”一键解绑上线 覆盖1...
工业和信息化部近日通告2024年第四季度电信服务质量情况。数据显示... -
政策与市场双重驱动 多家消费电子公司...
2025年春节假期期间,消费电子市场热度高涨,彰显出行业复苏的强劲... -
AI眼镜赛道火热 “百镜大战”一触即发?
2月6日,AI眼镜概念震荡走强,概念股深圳雷柏科技股份有限公司、深... -
戏曲成顶流,年轻人越品越有味!
破圈,得以守圈。千年戏曲撞上赛博狂欢,meme梗图与字幕竟成了年轻... -
15套神仙睡衣!又甜又撩颜值巨高!穿出...
待在家里的时候穿最多的就是各种好看的家居服睡衣了,超幸福的! 天... -
今年流行卫衣+半身裙,超百搭,时尚温柔...
在时尚的轮回中,总有一些组合能够跨越季节,成为永恒的经典。2025... -
新春走基层丨“中式战袍”点燃春节服饰...
用一件汉服、马面裙或具有新中式风格的衣服,作为今年春节走亲访友... -
金价超850元/克 春节优惠、小克重产品...
春节期间金价持续上涨,北京黄金市场消费也迎来了一波新年流量。在... -
18道工序打磨 西湖绸伞美出圈
在今年的春晚上,节目《借伞》给观众留下了深刻印象。演员手中精美... -
县域消费市场供销两旺
菜篮子米袋子果盘子物丰量足价稳,百姓餐桌美味飘香;新能源汽车、绿... -
从春晚李子柒的彩裙 聊聊传统的五色之美
春晚的开场视觉秀《迎福》中,李子柒化身蝴蝶仙子,以一袭长裙惊艳... -
披上“奥运战袍”李宁能否实现新突破
近日,中国体育用品市场迎来了一场备受瞩目的较量,李宁接替安踏成... -
文化潮起来 消费旺起来
消费升腾跳动,城市脉搏跃动,新春的广州一片火热。刚过去的蛇年春... -
本田日产合并失败后,日产寻找新合作伙...
本田与日产的经营整合实际上很可能已告失败。日产 2 月 3 日召... -
拒绝“兄弟”变“父子” 日产本田合并...
2月5日,据多方消息,日本两大汽车制造商本田与日产的合并谈判正走... -
丰田在华设新公司水到渠成
2月5日,丰田汽车宣布,将在上海市金山区设立独资的雷克萨斯纯电动... -
上市公司竞逐低空飞行器固态电池 谁将...
今年以来,固态电池在eVTOL(电动垂直起降飞行器)领域的应用持续升温... -
福特汽车2025年业绩指引不如预期
当地时间2月5日,美国福特汽车发布财报显示,公司2024年第四季度收... -
能源“机器人”应对充电激增压力
今年春运期间,地处河北、河南、山西三省交界的青兰高速山西东阳关... -
新能源车“上路”三大难点怎么破
新能源汽车保有量的快速增长让更多使用过程中的难题暴露出来。充电... -
丰田第三财季营业利润降28%,仍上调2025...
2月5日,全球最大汽车制造商丰田汽车公布,2025财年第三财季(2024年... -
2024年成绩单揭晓,博世:2025年进一步...
回望2024年,全球经济复苏之路依旧崎岖,且牵连甚广,Tier 1巨头博... -
“示界”竞逐第五“界” 东风汽车战略急转
东风汽车管理层正在慎重思考一重大战略,神龙可能要撤回一个示界。... -
锚定硬科技 科技主题基金有望大扩容
硬科技正在成为机构强力布局方向,当前多只科技主题基金正在或即将... -
DeepSeek“火出圈” 绩优基金提前布局AI产业链
春节假期前后,国产AI大模型DeepSeek凭借其高性能、低成本、强生态... -
超30只公募基金蛇年开启认购 市场将迎...
新发基金有望再度为市场注入增量资金。作为农历蛇年新年的首个交易... -
医疗股开工首日崛起!热门赛道基金悄然...
节后开工首日医疗赛道强势行情背后,是许多管理热门科技赛道的明星... -
春节假期后权益类基金新发热度再攀升
2025年春节假期后,公募基金开始排队发行。其中,权益类基金仍是基... -
财经深一度|春节假期后权益类基金新发热...
2025年春节假期后,公募基金开始排队发行。其中,权益类基金仍是基... -
股票型ETF相继上市 增量资金持续入场
近日,永赢中证A500ETF、嘉实创业板50ETF等股票型ETF相继发布上市公... -
1月份75%QDII基金正收益 易方达11只基金涨超6%
2025年1月份,全市场650只(各类份额分开计算,下同)有可比业绩的QDI... -
重大突破,机器人再掀涨停潮!方正富邦...
除夕夜,16台人形机器人春晚热舞出圈,这个春节,在多个景区,机器... -
蛇年开市科技股全面走强 一线私募研判积极
受国内春节消费趋旺、国产DeepSeek大模型在人工智能(AI)领域掀起巨... -
新春走基层·走笔丨赶集!打开手机就有...
在记忆深处,赶集是一种充满烟火气与人情味的体验。南疆地域辽阔,... -
关注粮食浪费丨如何避免节日盛宴变“剩...
平均每桌剩菜三分之一,有的客人甚至只拍不吃,年年有余成了‘... -
各地“新春第一会”都聚焦什么?一起来...
来源标题:各地新春第一会都聚焦什么?一起来看新变化→春节假期... -
全国超过1.8亿人参加长期护理保险 这些...
来源标题:全国超过1 8亿人参加长期护理保险 这些短板仍需补齐国... -
油气地质储量超1.5亿吨!渤海亿吨级油田...
来源标题:油气地质储量超1 5亿吨!渤海亿吨级油田渤中26-6投产记者... -
“尔滨”准备好了!热“雪”之约待你来
来源标题:尔滨准备好了!热雪之约待你来龙辞旧岁,蛇舞新春。盛会适... -
冰雪经济激活发展动能
来源标题:冰雪经济激活发展动能在哈尔滨亚冬会的赛场上,冰雪运动... -
快收藏!哈尔滨亚冬会金牌赛程来了
来源标题:快收藏!哈尔滨亚冬会金牌赛程来了 -
夯实节后返岗就业,助力务工人员逐梦新程
来源标题:夯实节后返岗就业,助力务工人员逐梦新程随着春节假期结... -
哈尔滨冰雪大世界有多火热?美国小伙埃...
来源标题:哈尔滨冰雪大世界有多火热?美国小伙埃文也来打过卡了哈尔... -
亚冬会|闲记:“尔滨”的Hā Há Hǎ Hà
来源标题:亚冬会|闲记:尔滨的Hā Há Hǎ Hà亚冬... -
瞧!亚冬会的“科技范儿”
来源标题:瞧!亚冬会的科技范儿行驶在通往亚冬会雪上项目举办地亚布... -
整点“small 芭比Q”!尔滨的哥猛学英...
来源标题:整点small 芭比Q!尔滨的哥猛学英语迎接亚冬会来的且好客... -
亚冬会|何以“尔滨”
亚冬会何以选择冰城哈尔滨?在哈尔滨,冰雪运动可不仅仅是专业运动员... -
南国热雪:湖北冰雪运动“滑出”经济增...
近年来,湖北挖掘特色冰雪资源,发挥九省通衢优势,推动冷资源焕发... -
新闻分析:登顶我国影史票房榜,《哪吒...
伴随一代代人成长的神话人物哪吒,点燃了乙巳蛇年新春电影市场。统... -
“AI老中医”,把脉准不准?用户体验如何?
来源标题:AI老中医,把脉准不准?用户体验如何?将手放在脉枕上,机... -
从护工到医疗护理员,“辛苦活”变成了...
来源标题:从护工到医疗护理员,辛苦活变成了技术活多地试点无陪护... -
2024年中国手机产量16.7亿台 同比增长7.8%
来源标题:2024年中国手机产量16 7亿台 同比增长7 8%中国工信部6... -
2月5日全社会跨区域人员流动量完成23153...
来源标题:2月5日全社会跨区域人员流动量完成23153 8万人次交通运... -
DeepSeek如何搅动AI产业?
从ChatGPT、Sora、Kimi、豆包,再到如今的DeepSeek,这些横空出世的... -
DeepSeek大放异彩 AI迎来“破圈时刻”
刚刚我还在用DeepSeek-R1模型测试本地知识库,它的文本生成能力比预... -
逾2万亿元逆回购到期 央行多举措调节流动性
蛇年春节后的首周,央行连续两个工作日回笼资金引发市场关注。2月6... -
DeepSeek颠覆了什么?——大模型“国产...
一家人工智能初创企业浅浅扇动两下翅膀,即掀起全球科技界的一阵海... -
DeepSeek有望激发 新一波人工智能创新浪潮
中国人工智能(AI)企业深度求索(DeepSeek)日前发布其最新开源模型Dee... -
楼市止跌回稳态势延续 核心城市“小阳...
近期,多地陆续披露2025年1月份楼市成交数据,总体延续了止跌回稳态... -
今日视点:中长期资金入市总量持续提升可期
近日,中国证监会主席吴清在《求是》杂志发表署名文章指出,从投资... -
银行纷纷启动首季“开门红”活动 贷款...
起步即冲刺,开年即开跑。对于商业银行而言,开门红意味着新一年贷... -
AI眼镜赛道火热 “百镜大战”一触即发?
2月6日,AI眼镜概念震荡走强,概念股深圳雷柏科技股份有限公司、深... -
工业和信息化部:2024年我国手机产量16.7亿台
工业和信息化部6日公布数据显示,2024年,我国电子信息制造业生产增... -
信银理财财富管理事业部专户投资条线副...
2025年1月18日,由易趣财经传媒、《金融理财》杂志社主办的金貔貅· -
时间复利,能为投资者带来“稳稳的信服...
一、利率下行叠加市场波动,银行理财如何为客户创造价值?近年来, -
“手”护完整匠心再造为花季少女再竖“...
在生活中,不经意间的意外伤害可能会给我们后来的生活,带来无法想象 -
暖心护航春节返程,顺丰确保每一份满满...
新的一年,标志着全新的开始。当春节假期进入收尾阶段,游子们纷纷... -
怪不得刷屏!看完这支贺岁片,我的文化D...
-
永康中泰全国医疗器械供应链服务平台发...
为推动医疗器械产业转型升级,共商行业未来,2025年1月24日,“合众 -
北京大卫中医院院长张占宗向全国人民拜...
北京大卫中医院院长张占宗向全国人民拜年!致以新春问候!尊敬的全 -
中国汽车跑出“加速度”
1月10日,在比利时布鲁塞尔会展中心举办的2025布鲁塞尔车展上,比亚... -
推动更多新能源汽车驶向全球
新能源时代的全球浪潮带来了技术的飞速进步和产业的全面升级,中国... -
定位豪华电混越野,捷途发布“纵横”产...
近日,捷途汽车在北京国家会议中心发布了全新豪华电混越野产品序列... -
年终讲|比亚迪向左,吉利向右
连夺三个2024年销冠称号,比亚迪新年伊始就马不停蹄的发布了以智能... -
中国电动汽车走俏新加坡市场
新加坡交通部陆路交通管理局近日公布的数据显示,2024年注册新车数... -
2024年全国电动汽车充换电基础设施数量...
原标题中国充电联盟:2024年全国电动汽车充换电基础设施数量同比增... -
2025年豪车市场:格局将如何演变?
2024年已经尘埃落定,各大汽车制造商竞相揭晓年度销量成绩单,但多... -
特斯拉新一轮全球涨价要来了?
特斯拉在加拿大市场大幅涨价了。1月23日,特斯拉加拿大网站显示,将... -
德国汽车业:欧洲应欢迎中国电动车企投资
据德国《青年世界报》网站1月21日报道,梅赛德斯-奔驰公司首席执行... -
年终讲|东风干大事,以人为本
2025年1月14日,东风汽车领导班子与十位老干部在总部会议室进行座谈... -
2.7亿人次、2.5亿人次、3.21亿张……透...
来源标题:2 7亿人次、2 5亿人次、3 21亿张……透过数据看流动的... -
铲冰除雪、压速带道、“人工+机械”……...
来源标题:铲冰除雪、压速带道、人工+机械……各地积极应对寒潮 保... -
多地年度住房计划关注“人房地钱”联动...
来源标题:多地年度住房计划关注人房地钱联动 土地成交活跃提信心... -
欢欢喜喜过大年!新春“氛围组”就位 ...
来源标题:欢欢喜喜过大年!新春氛围组就位 民俗+点亮春节仪式感春... -
预防春季食源性疾病需防范两类风险因素...
来源标题:预防春季食源性疾病需防范两类风险因素 专家作出详细解... -
为了一份责任和担当 “钢轨医生”默默...
来源标题:为了一份责任和担当 钢轨医生默默守护春运安全邕北铁路... -
1.74万亿元、比上年增3.2% 电信业务乘...
来源标题:1 74万亿元、比上年增3 2% 电信业务乘数而上向新行稳... -
节前招聘送“春风” 为就业群体和各类...
来源标题:节前招聘送春风 为就业群体和各类用人单位吃下定心丸新... -
“村晚”让各族群众共享热闹非凡“文化...
来源标题:村晚让各族群众共享热闹非凡文化大餐 沉浸式感受独特年... -
一起解锁各地春节文旅市场“流量密码”...
来源标题:一起解锁各地春节文旅市场流量密码 文化之美添彩和美中... -
春节临近 节日市场购销两旺
来源标题:春节临近 节日市场购销两旺春节临近,眼下,人们置办年... -
龙舞凤飞歌盛世,国强民富乐无边!春节...
来源标题:龙舞凤飞歌盛世,国强民富乐无边!春节临近 各地举办丰富...