您的位置:首页 >资讯 > 热点 >

GPT-4混合大模型?研究证明MoE+指令调优确实让大模型性能超群

2023-07-07 22:12:51    来源:机器之心Pro

机器之心报道

编辑:小舟、陈萍

自 GPT-4 问世以来,人们一直惊艳于它强大的涌现能力,包括出色的语言理解能力、生成能力、逻辑推理能力等等。这些能力让 GPT-4 成为机器学习领域最前沿的模型之一。然而,OpenAI 至今未公开 GPT-4 的任何技术细节。


(资料图)

上个月,「天才黑客」乔治・霍兹(George Hotz)在接受一家名为 Latent Space 的 AI 技术播客的采访时提到了 GPT-4,并称 GPT-4 其实是一个混合模型。具体来说,乔治・霍兹称 GPT-4 采用由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。

Latent Space 的采访内容。

这或许只是乔治・霍兹的一种推测,但这种模式确实有一定的合理性。最近,由来自谷歌、UC 伯克利、MIT 等机构的研究者联合发表的一篇论文证实:混合专家模型(MoE)与指令调优的结合能够让大型语言模型(LLM)的性能大幅提升。

论文地址:https://arxiv.org/pdf/2305.14705.pdf

稀疏混合专家模型是一种特殊的神经网络架构,可以在不增加推理成本的情况下,为大型语言模型(LLM)增加可学习的参数。指令调优(instruction tuning)是一种训练 LLM 遵循指令的技术。该研究发现 MoE 模型比密集模型更能从指令调优中获益,因此提出将 MoE 和指令调优结合起来。

该研究在三种实验设置下进行了实证研究,包括

在没有指令调优的情况下在单个下游任务进行直接微调; 指令调优后对下游任务进行 in-context 少样本或零样本泛化; 指令调优后对单个下游任务进行进一步微调。

在第一种情况下,MoE 模型总体上不如具有相同计算能力的密集模型。然而,随着指令调优的引入(第二和第三种情况),FLAN-MoE_32B(Fine-tuned LAnguage Net,简写为 Flan,是一种经过指令调优的模型,Flan-MoE 即为指令调优 MoE)在四个基准任务上性能超过了 FLAN-PALM_62B,却只用了三分之一的 FLOPs。

如下图所示,在使用指令调优前,MoE→FT 不如 T5→FT。指令调优后,Flan-MoE→FT 优于 Flan-T5→FT。MoE 从指令调优中获得的收益 (+15.6) 大于密集模型 (+10.2):

看来 GPT-4 采用混合模型还是有点根据的,MoE 确实能够从指令调优中获得更大的收益:

方法概述

研究者在 FLAN-MOE (是一组经过指令微调的稀疏混合专家模型)模型中使用了稀疏激活 MoE(Mixture-of-Experts)。此外,他们还用 MoE 层替换了其他 Transformer 层的前馈组件。

每个 MoE 层可理解为一个「专家」,然后,使用 softmax 激活函数对这些专家进行建模,得到一个概率分布。

尽管每个 MoE 层有很多参数,但专家是稀疏激活的。这意味着对于给定的输入 token,只使用有限的专家子集就能完成任务,从而为模型提供了更大的容量。

对于具有 E 个专家的 MoE 层,这实际上提供了 O (E^2) 种不同的前馈网络组合,从而实现了更大的计算灵活性。

由于 FLAN-MoE 是经过指令调优的模型,因而指令调优非常重要,该研究在 FLAN 集合数据集的基础上对 FLAN-MOE 进行微调。此外,该研究将每个 FLAN-MOE 的输入序列长度调整为 2048,输出长度调整为 512。

实验与分析

平均而言,在不增加任何额外计算的情况下,Flan-MoE 在所有模型尺度上都优于密集的同类产品 (Flan-T5)。

专家数量。图 4 显示,随着专家数量的增加,初始时,模型受益于更丰富的专门子网络,每个子网络能够处理问题空间中的不同任务或方面。这种方式使得 MoE 在处理复杂任务时具有很强的适应性和效率,从而整体上改善性能。然而,随着专家数量的不断增加,模型性能增益开始减少,最终达到饱和点。

图 3 和表 1 详细研究了不同的路由决策如何影响指令调优性能:通过 FLAN-Switch 和 FLAN-GS 策略之间的比较可以得出,激活更多的专家会在四个基准测试中提高性能。在这些基准测试中,MMLU-Direct 模型显示出最显著的改进,对于 BASE/LARGE 尺寸的模型,从 38.0% 增加到 39.9%。

值得注意的是,与等效容量的密集模型相比,指令调优显著放大了 MoE 模型在保留 MMLU、BBH 和内部 QA 和推理基准测试方面的性能。对于较大的 MoE 模型,这些优势进一步放大。例如,指令调优使 ST_32B 的性能提升了 45.2%,而对于 FLAN-PALM_62B,这种改进相对较小,约为 6.6%。

当进行模型扩展时,Flan-MoE (Flan-ST-32B) 优于 Flan-PaLM-62B 。

此外,该研究通过 freeze 给定模型的门控函数(gating function)、专家模块和 MoE 参数进行了一些分析实验。如下表 2 所示,实验结果表明,freeze 专家模块或 MoE 组件对模型性能有负面影响。

相反,freeze 门控函数会使模型性能略有改善,尽管并不明显。研究者推测这一观察结果与 FLAN-MOE 的欠拟合有关。该研究还进行了消融实验来探究下图 5 描述了微调数据效率消融研究。

最后,为了比较直接对 MoE 进行微调和 FLAN-MOE 之间的差距,该研究对单任务微调的 MoE、单任务微调的 FLAN-MoE 和密集模型进行了实验,结果如下图 6 所示:

感兴趣的读者可以阅读论文原文,了解更多研究内容。

标签:

相关阅读

精彩放送

工信部通报31款侵害用户权益APP

大宗交易:成都先导成交2500万元,折价17.98%(07-07)

违规发放借名贷款,信贷资金被挪用,浙江东阳富民村镇银行被罚55万

宋妍霏方辟谣与易烊千玺绯闻:纯属无中生有

中央银行存款账户管理办法来了,明确账户申请与开立规则

湘鄂七县市携手守护区域森林资源

苹果云服务安卓可以用吗

《中国好声音》已有7人去世,5人死于癌症,最小的只有31岁

全球焦点!山海杨阳:美联储加息声浪高涨,黄金强弱看非农数据!

官宣:马刺热火骑士三方交易 斯特鲁斯远赴克城

(关注高考)甘肃省普通高校招生本科提前批A段开始录取

华为怎么截屏长的聊天记录(华为怎么截屏)

怎么看,怎么办——新华社五论中美关系-世界播资讯

以闪亮之名古镇环游活动攻略

国家防总维持对重庆等7省份的防汛四级应急响应 派工作组赴黑龙江协助指导防汛救灾

卫星化学5000万于浙江设新材料科技子公司

应急管理部启动危化品重大危险源企业部级督导核查

全国主要江河泥沙量较20多年前减少超2/3

税控专用发票什么意思?税控发票和非税控发票有什么区别?

毛峰茶属于什么茶?毛尖和毛峰哪个档次高?

家里苍蝇太多怎么消灭比较好?家里苍蝇太多是什么原因?

什么是埃及水晶到底好不好?埃及水晶的价格一般是多少?

霍利菲尔德被击倒有几次?霍利菲尔德相关资料介绍

威海营商行|乳山市民政局开展燃气安全检查和消防应急演练

“夏日广场”搭建群众文化舞台 西安探索公共文化服务新业态

“2023中国十万人基因组计划”启动 基因检测大数据赋能精准医学研究

空转锁芯的原理是什么?空转锁芯的缺点和优点是什么?

“光伏+”开辟中国清洁能源发展新赛道

蒙面舞王女王不戴冠是谁?蒙面舞王中差一点女王是谁?

国家防总工作组在渝指导防汛救灾 确保受灾群众得到妥善安置|环球观焦点

适用个税优惠的商业健康保险范围扩大

“微博之王”李想痛失战友,联合创始人沈亚楠退股关联公司

特利迦奥特曼结局是什么?奥特曼出版时间顺序是什么?

FPG财盛国际:非农报告酝酿重大风险!黄金市场等待下一波大行情

老九门丫头是怎么死的?丫头的病是陈皮害的吗?

禾信仪器终止不超2.3亿元可转债 2021年上市募3.1亿

倒计时3天!2023年度税务师职业资格考试报名即将截止

焦点热议:【孤魂黄金】黄金下探激战1900,关注是否破位

沈皓南:今日大非农,预计还是利空黄金

分析人士:聚焦行情关键变量-天天热门

中国高铁四横四纵指的是什么?高铁上有充电的地方吗?

每日快讯!激发人工智能“头雁效应”

王杨:大非农强势来袭,黄金1918压力继续干空!

暑期玩出新花样:跟着课本去旅行 高考生组团PK“背课文”

如何自己制作APP?怎么开发一款app软件代码怎么写?

“关键变量”成为“最大增量”(高质量发展调研行)

手机话费充值卡怎么使用?手机话费是月初扣还是月末扣?

美国总统拜登批准北达科他州重大灾难声明

高等教育助力劳动力素质升级

抓住特殊性,总结一般性,初识极端化——从中原区期末考试的一道题说起

网议95四大甜妹! 《偷偷藏不住》赵露思势头猛,她被封为甜妹专业户却涉校霸

市场观望情绪浓厚 鸡蛋期货价格仍将震荡运行_天天短讯

内外共振推动铜价上行|快看点

王导:黄金1920空暴跌获利,1910直接空-世界播报

种植面积意外大幅下调 美豆预计将震荡偏强_快资讯

头狼:非农之夜,1910继续干多,上看1937一线

冯哥论金:黄金空单大赚,午夜思路曝光

7月7日生意社不锈钢板基准价为13585.71元/吨

7.7金市健言:纳指原油空单再获大胜!黄金1903反手多!

全球实时:股指三季度将开启趋势性上升行情

当前热讯:艾紫馨:黄金白银闻声大作  非农恐再度“爆表”?

53个经典英文课堂游戏活动案例,英语老师必备!(留言有奖)

兰州市共签约招商引资项目117个 签约总额893.45亿元

森泰股份:7月6日获融资买入103.79万元,占当日流入资金比例9.33%

北斗三号全球卫星导航系统已服务200多个国家和地区用户

抢占财富高地 解读REVA云铸造的真正价值和潜力

2023雨果奖入围名单公布 4位中国作家入围最佳短篇小说

我国综合立体交通网持续完善(大数据观察)

弗拉泰西:梅阿查、国米球迷和马洛塔的称赞是我加盟国米的原因

“七下八上”防汛关键期 各地积极应对

中欧班列开行数量强劲增长

研究显示全球平均气温连续3天达历史高位

明星美白针 明星们打美白针吗

军棋怎么玩新手入门 ?如何从小白到高手进阶

普里戈任已从圣彼得堡前往莫斯科?佩斯科夫:没关注他的行踪

租金下降促企业“升级”办公场所 外资积极布局深圳商办市场

中央气象台:渤海和江苏沿岸海域将有雷暴大风 黄海北部海域将有雾

中交集团与兰州交通大学签署战略合作协议

黑莓9500论坛_黑莓9500刷机

况三喜爸爸没有嗅觉为什么 况三喜让马立奥使劲打自己 基本情况讲解

锚定轻休闲品类游戏运营 vivo游戏开发者沙龙深圳场顺利举办

联合国秘书长:强烈谴责暴力行为 呼吁以色列遵守国际法

本田拉杆球头更换(本田拉杆多久更换?)

田雨苗事件(田雨苗)

鞠躬尽瘁的主人公是谁啊(鞠躬尽瘁的主人公是谁)

doc转换成docx工具(doc转换成docx)

关于约书亚和SP白兰实装后的一些相关参数测试结果

前5个月我国服务贸易保持增长 旅行服务增长最快

一刻不停搜救 一丝不苟“备战”——重庆万州“7.4”洪涝地质灾害救援一线直击

国家卫生健康委成立医疗应急工作专家组 涉22个学科

商务部回应对镓、锗相关物项实施出口管制

汇隆活塞拟使用额度不超过1亿闲置募集资金购买理财产品

外汇界新一:就业50万!黄金没落!

科技小院再“论剑” 全国上百支研究生团队将登台切磋兴农之术

常州何以成新能源汽车投资热土

金界传奇:黄金空单速度收割,1907反手多!

王杨:黄金小非农利空1920干空瞬间收割,美盘反弹继续空!

科技观察|“书生通用大模型体系”发布!全面升级后可赋能医疗交通等场景

金宝:7.6黄金反弹延续,14上多持仓待拉后再空

张良点金:晚间原油现价71.6直接空!|当前视讯

组图|海南“原生态”排球赛 路边精彩上演

黄金新一轮跌势酝酿中?!今日美国至少4份就业数据出炉 耶伦访华万众瞩目

华宝国际(00336.HK):董事蔡文霞已在未被起诉的情况下获准保释外出

报告显示:我国科技期刊超5000种 学术影响力持续提升

提升出行体验 保障物资运输——铁路部门精心组织满足暑运需求

久立特材(002318.SZ)全资子公司终止设立基金管理公司

大美非遗|湖北黄石:西塞神舟登江 万人送舟祈福

工视评丨把清凉送给每一个高“炎”值的你! 世界信息