您的位置:首页 >资讯 > 科技 >

AI“模型崩溃”风险需警惕

2024-09-25 18:01:08    来源:科技日报

来源标题:AI“模型崩溃”风险需警惕

从客户服务到内容创作,人工智能(AI)影响了众多领域的进展。但是,一个日益严重的被称为“模型崩溃”的问题,可能会使AI的所有成就功亏一篑。

“模型崩溃”是今年7月发表在英国《自然》杂志上的一篇研究论文指出的问题。它是指用AI生成的数据集训练未来几代机器学习模型,可能会严重“污染”它们的输出。

多家外媒报道称,这不仅是数据科学家需要担心的技术问题,如果不加控制,“模型崩溃”可能会对企业、技术和整个数字生态系统产生深远影响。天津大学自然语言处理实验室负责人熊德意教授在接受科技日报记者采访时,从专业角度对“模型崩溃”进行了解读。

“模型崩溃”是怎么回事

大多数AI模型,比如GPT-4,都是通过大量数据进行训练的,其中大部分数据来自互联网。最初,这些数据是由人类生成的,反映了人类语言、行为和文化的多样性和复杂性。AI从这些数据中学习,并用它来生成新内容。

然而,当AI在网络上搜索新数据来训练下一代模型时,AI很可能会吸收一些自己生成的内容,从而形成反馈循环,其中一个AI的输出成为另一个AI的输入。当生成式AI用自己的内容进行训练时,其输出也会偏离现实。这就像多次复制一份文件,每个版本都会丢失一些原始细节,最终得到的是一个模糊的、不那么准确的结果。

美国《纽约时报》报道称,当AI脱离人类输入内容时,其输出的质量和多样性会下降。

熊德意解读称:“真实的人类语言数据,其分布通常符合齐普夫定律,即词频与词的排序成反比关系。齐普夫定律揭示了人类语言数据存在长尾现象,即存在大量的低频且多样化的内容。”

熊德意进一步解释道,由于存在近似采样等错误,在模型生成的数据中,真实分布的长尾现象逐渐消失,模型生成数据的分布逐渐收敛至与真实分布不一致的分布,多样性降低,导致“模型崩溃”。

AI自我“蚕食”是坏事吗

对于“模型崩溃”,美国《TheWeek》杂志近日刊文评论称,这意味着AI正在自我“蚕食”。

熊德意认为,伴随着这一现象的出现,模型生成数据在后续模型迭代训练中占比越高,后续模型丢失真实数据的信息就会越多,模型训练就更加困难。

乍一看,“模型崩溃”在当前似乎还是一个仅需要AI研究人员在实验室中担心的小众问题,但其影响将是深远而长久的。

美国《大西洋月刊》刊文指出,为了开发更先进的AI产品,科技巨头可能不得不向程序提供合成数据,即AI系统生成的模拟数据。然而,由于一些生成式AI的输出充斥着偏见、虚假信息和荒谬内容,这些会传递到AI模型的下一版本中。

美国《福布斯》杂志报道称,“模型崩溃”还可能会加剧AI中的偏见和不平等问题。

不过,这并不意味着所有合成数据都是不好的。《纽约时报》表示,在某些情况下,合成数据可以帮助AI学习。例如,当使用大型AI模型的输出训练较小的模型时,或者当可以验证正确答案时,比如数学问题的解决方案或国际象棋、围棋等游戏的最佳策略。

AI正在占领互联网吗

训练新AI模型的问题可能凸显出一个更大的挑战。《科学美国人》杂志表示,AI内容正在占领互联网,大型语言模型生成的文本正充斥着数百个网站。与人工创作的内容相比,AI内容的创作速度更快,数量也更大。

OpenAI首席执行官萨姆·奥特曼今年2月曾表示,该公司每天生成约1000亿个单词,相当于100万本小说的文本,其中有一大部分会流入互联网。

互联网上大量的AI内容,包括机器人发布的推文、荒谬的图片和虚假评论,引发了一种更为消极的观念。《福布斯》杂志称,“死亡互联网理论”认为,互联网上的大部分流量、帖子和用户都已被机器人和AI生成的内容所取代,人类不再能决定互联网的方向。这一观念最初只在网络论坛上流传,但最近却获得了更多关注。

幸运的是,专家们表示,“死亡互联网理论”尚未成为现实。《福布斯》杂志指出,绝大多数广为流传的帖子,包括一些深刻的观点、犀利的语言、敏锐的观察,以及在新背景下对新生事物的定义等内容,都不是AI生成的。

不过,熊德意仍强调:“随着大模型的广泛应用,AI合成数据在互联网数据中的占比可能会越来越高,大量低质量的AI合成数据,不仅会使后续采用互联网数据训练的模型出现一定程度的‘模型崩溃’,而且也会对社会形成负面影响,比如生成的错误信息对部分人群形成误导等。因此,AI生成内容不仅是一个技术问题,同时也是社会问题,需要从安全治理与AI技术双重角度进行有效应对。”

标签:

相关阅读

精彩放送

中国已对全球53次重大自然灾害进行数据救援

产业迅猛发展 3D打印如何闯出“新天地”

世界数字科学院计划建立AI安全与伦理标准

衰老研究“风华正茂” 健康老去愿景可期

快手可灵AI携手东方卫视中秋晚会打造文化与科技交融的视听盛宴

分布式光伏发电在轨道领域应用有新突破

CSEE新型电力系统标准算例发布

中科云谷提出智慧仓储整体解决方案

江苏滨海:强化网络安全宣传 筑牢网络安全防线

“《哥德巴赫猜想》之后 科幻科普作家活动周”在京启动

中国已对全球53次重大自然灾害进行数据救援

产业迅猛发展 3D打印如何闯出“新天地”

世界数字科学院计划建立AI安全与伦理标准

衰老研究“风华正茂” 健康老去愿景可期

快手可灵AI携手东方卫视中秋晚会打造文化与科技交融的视听盛宴

分布式光伏发电在轨道领域应用有新突破

CSEE新型电力系统标准算例发布

中科云谷提出智慧仓储整体解决方案

科技赋能,雪域高原绘就产业兴盛新图景

第32届深圳礼品家居展联袂1688,10月巅峰盛会引领礼业

14亿多人从“用上电”到“用好电”

城乡基础设施网络越织越密

高水平开放为服务贸易添动力

未来三天南方雨势减弱 27日起冷空气入侵我国

全国推广普通话宣传周重点活动在喀什举办

走进河北正定国家乒乓球训练基地 一所乒乓球学校的发展足迹

今年黄河上中游重点水库联合排沙调度结束 水库排沙减淤效果显著

黄河流域两项国家计量比对项目实施 保障生态监测准确可靠

云南建立干部调研报备电子管理平台

用歌声唱响民族复兴豪情壮志

江西以需求为导向提升老年人幸福感

合肥市“同心之旅”统战文化体验线路发布

湖南株洲加快构建科技、产业、金融协同创新生态

河北廊坊发挥区位优势,创新消费场景 深挖“文”资源 做足“旅”文章

国家计划对六家大型商业银行增加核心一级资本

安徽肥西发展苗木花卉产业 “颜值”变“产值” 花开富农家

从“等风来”到“乘风起” 江苏文旅消费大省这样炼成

2024查干湖环湖马拉松鸣枪开赛,中国运动员包揽男女子冠军

国家计划对六家大型商业银行增资

湖州何以“最江南”

中国人民银行调降政策利率20个基点

518km真续航 东风风神L7 EV上市售10.99万起

数字化革新:丰巢洗护如何重塑高品质洗护服务标准

相约丝路巴楚 共享奔跑盛会

晓庐凯悦选酒店启动发布酒会暨“金秋满悦”品牌之夜

半导体领域并购持续升温 有利于产业高质量发展

“智改数转”赋能制造业 灯塔工厂打造竞争新优势

聚焦“强人工智能” 加快四大维度升级

数字化如何锻造特钢“六最”产品?

半导体行业有望迈入新一轮增长周期

推动超算与人工智能融合发展

精细化监管互联网广告

欧盟建立人工智能工厂提升创新竞争力

北斗产业迈入规模应用新阶段

互联网如何让公益更长久

9月23日外媒科学网站摘要:植物可能具有“智慧”

中外洞穴科学家对贵州双河洞开展联合科考

基因分析反驳了复活节岛“生态自杀”假说

新技术可快速测出儿童白血病的基因组异常

我国特色航天营养保障体系建立 未来“太空餐桌”更丰富

相当于地球磁场80多万倍 我国创造世界水冷磁体技术新高峰

“AI+”助力服务业数智化转型 培育数字经济发展新动能

北斗导航系统再添双星,将开展新技术试验

10家银行授信万亿助力北京亦庄产业创新发展

两个亚洲第一“能源重器”携手上岗(经济新方位·重大工程一线)

青春华章|“就按这个年轻人的意见办!”

14国记者参观全球首个万吨级铸造3D打印智能工厂 直呼“没想到”

我国稳态强磁场刷新水冷磁体世界纪录

杜氏肌营养不良症关键机制揭示

DNA编码化学库新技术助推药物研发

自制“橡皮泥”可读取人体电信号

五大极具潜力的太阳能技术突破

到2050年耐药细菌或致3900万人丧生

五大极具潜力的太阳能技术突破

到2050年耐药细菌或致3900万人丧生

景顺长城基金龚丽丽:积极布局新宽基产品 发力特色化服务

红利主题基金持续回撤 红利指数触底企稳

左侧布局尝到甜头 基金抢滩港股创新药板块

私募最新成绩单出炉 债券策略业绩明显回落

嘉实基金运用固有资金自购2亿元旗下中证A500ETF

农银汇理基金经理左腾飞:坚守真红利和优质成长板块

近一周270只基金分红

消费电子重归景气 基金经理“高看一眼”智能穿戴

重仓股“阵地战”效果欠佳 有基金轻仓“打游击”逆袭

兴义世界地质公园揭牌 填补三叠纪地质遗迹研究空白

前8月海南对东盟进出口额同比增近八成

国家发改委:“两新”工作持续激发需求潜力 不断拉动投资增长

全球24城市长(代表)将聚杭州 探讨城市治理与可持续发展

芗潮剧社成立90周年:芗潮澎湃向未来

暴雨笼罩海南岛 23日强降水天气持续

西藏环巴松措国际山地自行车越野赛将于9月29日举行

研究报告:民营企业研发费用与研发强度持续增长

“以旧换新”带动消费快速增长 8月新能源汽车零售量环比大增17% 京东平台五类电器增速...

机器满屋跑还带摄像头 扫地机器人摄像功能引担忧

加力支持“两新” 超长期特别国债资金全面下达 相关细则已出台实施

未经许可经营旅行社业务、“不合理低价游”……文旅部发布10起秩序整治典型案例

从战国风雨到抗日烽烟 250余公里保定长城“搬进”博物馆 寻迹太行龙脊两千年沧桑

七十五载奋进强国路 中国能源转型蒸蒸“绿”上彰显高质量底色

充分利用冬奥遗产 苏翊鸣、谷爱凌等主场领衔亮相 国际雪上赛事开启“中国赛季”

月月都有水果“上新” 广西人如何实现“水果自由”?

2024年中国农民丰收节新疆兵团主场活动举办

广东正值后汛期关键阶段 加强部署强降雨防御

郑州—阿拉木图TIR国际运输线路9月23日正式开通

昔日盐碱地今朝“金粮仓”:吉林镇赉迎多产丰收

进入中国市场3年,瑞典高端香氛品牌LYDEEN的破与立

业绩失速,“敏感肌第一股”贝泰妮探路保健食品

“草本精华”有毒?揭开“白发转黑”产品的真面目

智界R7将于9月24日上市 预售价26.8万元起