您的位置:首页 >资讯 > 财经 >

昆仑万维「天工大模型4.0」o1版(Skywork o1)正式启动邀请测试

2024-11-27 15:53:39    来源:中国网科技

今天,昆仑万维正式推出具有复杂思考推理能力的系列模型——“天工大模型4.0” o1版(Skywork o1)。

Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型。这是国内第一款中文逻辑推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,同时,该开源模型在标准评测集上,对比普通模型推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的提升。团队复现o1的技术路线,使得初始推理能力较差的基座模型在基准测试集上成为生态位SOTA。

此次发布的Skywork o1包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本:

Skywork o1 Open:一款基于Llama 3.1 8B的开源模型,该模型在同生态位开源模型中评测指标大幅提升达到SOTA水平,并解锁了许多轻量级模型无法解决的复杂数学任务。该模型的发布也将帮助加速国内开源社区复现o1的进程。

Skywork o1 Lite:该模型具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。

Skywork o1 Preview:这款模型是本次完整版的推理模型,搭配自研的线上推理算法,对比Skywork o1 Lite有着更多样和“深度”的思考过程,更完善和更高质量的推理。

其中,我们开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。同时,8B的Skywork o1 Open也解锁了很多较大量级模型,如GPT 4o,无法完成的数学推理任务(如24点计算)。这也为推理模型在轻量级设备上部署提供了可能性。

同时,我们也将开源两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分,Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。

对比开源社区现有的PRM,Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型,使用不同PRM在数学和代码评测集上的评估结果。

除Skywork-o1-Open-PRM外,其他开源PRM均未针对代码类任务进行专门优化,故不进行代码任务的相关对比。

详细技术报告也将在不久后发布。目前模型和相关介绍在Huggingface开源。

强推理以及自我反思的能力是如何练成的?

Skywork o1在逻辑推理任务上性能的大幅提升得益于天工三阶段自研的训练方案:

推理反思能力训练:通过自研的多智能体体系构造高质量的分步思考,反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。

推理能力强化学习:团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model(PRM)。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。

推理planning:基于天工自研的Q*线上推理算法配合模型在线思考,并寻找最佳推理路径。这也是全球首次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

亮点功能与实测

Skywork o1模型具有以下能力和亮点功能:

模型思考和规划能力

模型自我反思能力

模型自我验证能力

相较于此前(长文本任务)大模型,无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”(类似脑筋急转弯)逻辑陷阱问题等,Skywork o1都处理的游刃有余。整体来说,Skywork o1 Lite和Skywork o1 Preview线上版本在复杂问题分析、思考反思过程、输出答案质量上均有大幅提升。

进阶版的复杂人类思考能力的解锁也将进一步在垂类领域增强大模型的应用,例如:

中英文常见逻辑推理和复杂任务,如数学/代码类任务,科学研究

高质量内容生成,如创意写作,行业报告写作

深度搜索,解锁复杂搜索任务的拆解

2024年以来,昆仑万维天工AI持续进化,陆续发布了“天工2.0”、“天工3.0”、“天工大模型4.0”4o版——Skywork 4o,以及今天正式发布的“天工大模型4.0” o1版(Skywork o1),不仅是我们贯彻“All in AGI 与 AIGC” 战略的重要举措,更是我们构建AI技术栈的重要一步。我们将秉持“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,从模型层、应用层等全方位、多维度来构建公司技术竞争力和生态矩阵。

标签:

相关阅读

精彩放送

中国汽车出口为何实现飞跃?请看"渝车出海"

哈尔滨亚布力度假区全面改造升级迎接亚冬会

大港油田开启今冬天然气调峰保供 服务京津冀群众温暖过冬

江苏:用心求“新”打造新质生产力发展阵地

行政复议机构化解老旧小区增设电梯矛盾

出台两项政策 广东科技成果转化有了新抓手

山西加快推进科技资源开放共享

邢台推广“共享工厂”模式 实现产业高效协同发展

凯瑞俱乐部:如何迈向顶尖1%财富圈层

槟榔行业出现转机?国际权威生物期刊《IDDB》专稿聚焦

濮绸文创IP亮相世界互联网大会,让艺术品链接世界

民生银行举办“国网供应链金融推广会”并发布服务方案

第十五届全国心理分析与沙盘游戏大会圆满落幕

创新·艺术·扬国威:行风伟业集团董事长释行风会见总统,推进文化外交盛举

润致格格针帮你告别“撒哈拉干燥颈”,解锁水润细腻颈

2024大湾区—东盟经济合作(前海)论坛 盛大开幕

新豪轩门窗×冠军的新家 | 打开生活的另一扇窗,《冠军的新家》聚焦世界跳水冠军何姿的...

法国艺术家法布里斯·伊贝尔于上海地铁陆家嘴站揭幕特别创作, 共庆中法文化交流与长久友谊

孔达达——书法是世界非遗的璀璨明珠

舞韵悠长映华章:第十四届中国舞蹈“荷花奖”古典舞评奖圆满举行

2024东盟国际肿瘤整合医学论坛 吹响国际肿瘤整合医学集结号

国际赛场再夺3金,扬子江药业集团擦亮“中国药”质量名片

SAP “开箱即用”ERP云,助力中国企业探索高效增长之路

创意即生意,年轻人的搞钱之道越来越“艺术”了

选择如视VR后,雀巢中国拥抱更加安全的数字工厂新未来

从品质到服务,柏强制药打造行业领先者

Bit.com 首创平方期权:以现货方式交易结构化产品,开启加密创新篇章

新疆市县级业务覆盖率100%!顺丰物流服务网络持续下沉,打通巴州农业“神经末梢”

科技创新与品质保障,柏强制药引领医药新高度

“浙”里燃情五十载 守正创新再出发--浙江燃气发展50周年总结大会在杭州隆重举行

快乐高燃时刻!突破日亚车队亮相乐动时光赛车节

棕榈股份运营前置:乡村振兴的密匙

岩山科技:深化与华为合作,共筑鸿蒙生态新未来

我国自主设计的货运航天飞机“昊龙”全面开展工程研制

自然资源部印发通知 鼓励利用专项债券资金收回收购土地

人民银行发布金融工作情况报告 降低企业和居民融资成本

长江三峡规模最大红叶节将开幕

跨国企业在进博:投资中国就是把握未来

企业抢着来进博“首发”“首秀”

珠海航展集中亮相大国重器 陆海空天向全世界全方位展示发展成果

嫦娥六号月壤样品露脸 最新航天科技闪耀航展

医保基金预付金制度将建立 明确不得用于非医疗费用支出

女人过了50岁,建议多穿宽松衣服和宽松裤子,不仅遮肉还保暖

女人秋天这样打扮更好看!裤子穿宽的、配色不沉闷,简单高级

40+的女性衣服不用买太多,多穿毛衣和裙子,舒适优雅又暖和

加拿大鹅在中国市场依然好卖 高端羽绒服赛道愈发拥挤

5G+AI为服装产业安上超凡“大脑”

进博故事|人头马君度集团全球首席执行官艾睿可·瓦拉(Eric Vallat):我们深耕中国市...

“双十一”观察:银发族的消费潜力还有多大?

一件衣服能有多少科技含量?

2亿广告费成果初显,但南极电商三季度陷亏损

EST关店,花王求变

人形机器人:千年想象终成现实

每天锻炼五分钟有助降血压

“人手一个AI数字人”的时代还会远吗

美媒:洋葱抗菌抑菌角色有反转?

彩电突破3年峰值 苏宁易购“重拳出击”双十一

双11补上加补!苏宁易购联合百大品牌打造价格洼地

通用人工智能大型社会模拟器发布

2024年世界互联网大会乌镇峰会数字经济论坛将启,亮点抢先看

AI智能终端催化不断消费电子行业景气度持续提升

多家企业跨界入局 角逐人形机器人万亿美元级蓝海市场

AI搜索引擎重塑信息获取方式

供需联动壮大电子行业

拓展场景释放公共数据价值

13款移动App存在隐私不合规行为,涉及电商等领域

2024世界物联网博览会在无锡开幕

2024物联网创新发展太湖指数发布

搜狐2024年Q3营收1.52亿美元 同比增长5%

AI+低空经济,粤港澳大湾区能否诞生千亿巨头?

科普丨AI搜索引擎重塑信息获取方式

我国科研团队研制成功环保型发电机快速断路器

出台两项政策 广东科技成果转化有了新抓手

山西加快推进科技资源开放共享

邢台推广“共享工厂”模式 实现产业高效协同发展

黄金主题产品风头劲 理财公司竞相布局

A股新纪录诞生 科技成长主线迹象渐显

坚持支持性货币政策立场 加大调控强度

前十个月人民币贷款增加16.52万亿元

多地开展收购存量商品房工作 增量政策有望加快落地

政策“组合拳”力度大 外资机构积极布局中国市场

逾200家A股公司披露三季度现金分红方案

进博向“新” 制造未来

“中国是国际合作的重要倡导者、推动者、参与者”——访秘鲁亚太经合组织高官雷纳托·雷耶斯

上海:个人账户家庭共济缴费扩至近亲属

武汉:缺斤少两一测便知 手机变砝码专业办理点来了

南京:家门口吸氧赏秋,“轻户外”热了

到书店逛市集 北京“书饕节”启动

不能让“职业闭店人”跑了

见缝插绿建好口袋公园

“《肥料在中国》全媒体宣推活动”在古都南京盛大启幕

SAP与爱柯迪在第七届进博会达成合作 数智化核心赋能全球敏捷决策

2024中国山地自行车联赛总决赛暨年度颁奖盛典(云南•西畴)举行

波士顿科学第七届进博会秀创新科技,聚生态合力与中国共赴健康未来

第八届农业文化遗产会议  在浙江湖州德清县隆重开幕

守护巾帼仁心,助力乡村振兴——波士顿科学在第七届进博会 启动“基层健康守门人”女村...

高通钱堃:5G、AI等技术有更大潜力为可持续发展做出贡献

波士顿科学植入式脑深部神经刺激系统于第七届进博会举行新品发布

山东妙如意互联网医院:科技与医疗的综合医疗体系 专研调理慢性疾病

高通携手伙伴依托5G-A提升XR体验,成功入围进博会“2024新消费创新案例”名单

高通获颁“2024新消费创新案例”,5G-A推动数字消费高质量发展

七届“全勤生”高通已经确认参加明年第八届进博会

德力西电气与SAP于第七届进博会上签署合作 共启全球数智化新征程

高通中国区董事长孟樸:5G与AI的融合正加速企业数字化转型步伐

全面领先 创新发展!华垦乳业集团绽放第七届国际进博会,引领特色乳产业国际化新未来

波士顿科学“先行先试”,乐城示范区引领医疗创新浪潮

连续七年亮相进博会,高通携手合作伙伴共赢智能计算新时代

凤凰制药集团助力三大盛会,科技创新推动产业转型升级