您的位置:首页 >资讯 > 科技 >

OpenAI最新模型o3展现强大推理能力

2024-12-26 16:52:39    来源:科技日报

来源标题:OpenAI最新模型o3展现强大推理能力

12月20日,美国开放人工智能研究中心(OpenAI)介绍了其最新的人工智能(AI)推理模型——o3及其轻量版o3-mini。该公司宣称,o3具备更先进、近似人类的推理能力,在代码编写、数学竞赛和掌握人类博士级别的科学知识等方面,均超越了其“前辈”o1。

不过,英国《新科学家》网站在12月22日的报道中指出,尽管o3“实现了令人瞩目的性能飞跃”,但仍未达到业内翘首以盼的通用AI(AGI)水平。

多方面表现出色

OpenAI公司透露,在解决更复杂的多步骤问题时,o3模型会花更多时间计算答案,然后再给出回应。这一推理能力的提升,使o3在多项测试中表现出色。

大型语言模型热衷于在各种数学基准测试上疯狂“刷分”,o3也不例外。在2024年美国数学邀请赛中,o3模型的准确率高达96.7%,仅答错了一个问题。而在OpenAI研究人员认为最严格的基准测试之一——FrontierMath中,o3也解决了25.2%的问题。尽管这一得分看似不高,但此前其他大型语言模型曾在此“集体翻车”,正确率均未超过2%。

FrontierMath测试难度极大,曾被华裔数学家、菲尔兹奖得主陶哲轩评价为“可能会难住AI好几年”。然而,o3只需思考几分钟便能解答其中一道题目,而人类数学家则要花费数小时到数天。

在对科学知识的掌握方面,o3的表现也超出一般博士水平。在GPQADiamond(衡量模型在博士级科学问题上的表现,涵盖化学、物理和生物学方面的专业知识)基准测试中,o3的准确率达到87.7%,超过了人类博士的70%,也比之前o1表现高近10%。

此外,o3的编码能力也比之前的o1系列更胜一筹。在SWE-benchVerified(衡量AI模型解决现实世界软件问题的能力)基准上,o3的准确率约为71.7%,比o1高20%以上。在Codeforces编码竞赛平台中,o3的得分为2727,相当于榜单上第175名人类编程员的水平,而o1得分仅为1891。

在展示了o3取得的这些傲人成绩后,OpenAI首席执行官奥尔特曼强调,o3的出现标志着AI进入了下一个发展阶段,这些模型可处理需要大量推理的复杂任务。

与人类智能仍有差异

《新科学家》网站还报道,在被视为AGI重要衡量标准的抽象与推理语料库-AGI(ARC-AGI)大赛中,o3模型也创下新纪录:在低算力配置下,它以75.7%的得分登上公共排行榜前列。只因确定此项大奖得主的测试具有更严格的算力限制,在该算力限制下,o3的挑战以失败告终。

不过,在超出官方算力限制172倍的高算力下,o3采用“蛮力”取得了87.5%的成绩,达到了代表人类水平的85%门槛。

对于o3的表现,谷歌前工程师、ARC-AGI主要创建者弗朗索瓦·肖莱在博客中写道,这是AI能力的一次惊人且重要的跃升。但o3尚未实现AGI,因为其仍然无法解决ARC-AGI比赛中一些非常简单的问题,这表明其与人类智能存在根本差异。

AGI是一个假想中的未来系统,它能够模仿人类思维、决策,拥有自我意识,并能自主行动。然而,AGI目前主要活跃在科幻作品中,尚未走进现实。

升级迭代并非易事

o3不仅是OpenAI公司的最新力作,也是AI巨头竞逐大型语言模型的生动写照。

两年前,OpenAI发布了ChatGPT,由此拉开了AI军备竞赛的序幕。从GPT-3.5到更准确、更具创造性的GPT-4,再到o1,直至o3,OpenAI在不断精进自家产品。

其他顶级AI开发商也在利用日益先进的技术,推动自家产品迭代升级。此前不久,谷歌推出了其旗舰模型“双子座”(Gemini)的新版本,据称其速度是上一代的两倍,并且能够“思考、记忆、规划,甚至替代用户采取行动”。元宇宙平台公司计划明年推出Llama4。

然而,迭代之路并非坦途。包括OpenAI和谷歌在内的几家领军企业,正面临新模型开发耗资巨大但回报递减的困境。OpenAI的GPT-5模型开发工作进展缓慢。据悉,仅6个月的训练,单计算成本就高达约5亿美元,而性能仅比该公司现有产品略胜一筹。

标签:

相关阅读

精彩放送

弥合鸿沟,特殊教育数字化转型在路上

音乐公路、5G摄像头、治污喷剂…… 科技赋能亚冬会 创新“燃”动哈尔滨

北京海淀上线“一刻钟AI生活圈”

3D打印要向“快”“精”“新”持续突破

制造业转型升级势头强劲

算力迈向多元融合

四部门发文推进中小企业数字化转型

我国将构建天地一体化算力网络

电动自行车锂电池健康评估工作指引发布

沈阳“城管执法进小区”促进环境共治共建

冬至时节贵“养藏” 温补肝肾正当时

河北曲港高速沧州段建设进入收尾阶段

杭州富阳渌渚镇创新“人大+”促进社会治理

濮阳检察守护“一渠清水到雄安”

岁末经济微观察|出口全国第一,一颗安岳柠檬何以走向世界?

甘肃陇南深化拓展巾帼志愿服务 结对关爱全覆盖 “橄榄花开”正当时

湖南祁阳富里村围绕“七个一”工作机制开展帮扶 “祁心姐姐”护蕾志愿队呵护儿童向阳生长

城市更新步履不停,老商街重焕年轻力

广东拟禁止中小学设置校园商超

浙江外贸逆势增长以新取胜

广东清远:创新人才“扎下根”“挑大梁”

山西个人住房贷款最低首付比例降至15%

浙江推进药品监管领域政务服务增值化改革

各地秋粮收购进入高峰 农民"种粮卖得出"

大风蓝色预警:8省区市部分地区有大风 阵风可达8级

福建厦门港实现岸电建设全覆盖

汉江特大桥合龙精度达毫米级 京港澳高速改扩建冲刺

游戏体验天花板,一加 Ace 5 系列正式定档 12 月 26 日

博信会前瞻布局2025:布局未来,你还在犹豫观望吗?

脸那么美,却被颈纹拖后腿,润致格格针帮你重拾社交自信

为了这个心愿,五位七旬老汉退休十年只做一件事

晋浙情长 共探酒文商旅新融合

云南勐腊:乡村足球赛点燃边境文旅热

第七届“绽放杯”5G应用征集大赛收官 上海移动实现双突破

上市公司掘金银发经济 AI赋能智慧养老产品落地开花

云端建造工厂助施工更安全更智能

中国物品编码中心加速推动全球商品数据变革

甘肃成功试点应用首台全国产化智能防外破装置

人工智能产品销售强劲 摩根士丹利上调博通目标价

二〇二四中国正能量网络精品征集展播活动启动

加码数字贸易 为开放注入新动能

腾讯客服如何服务10亿级海量用户

年终大促那么多,为什么商家还需要「年货节」

孔达达:探索多元结构交织下的当代艺术

持续回升向好!11月经济数据进一步稳预期强信心

传统产业创新底色足、发展潜力大

高质量发展调研行丨“浙”乡村,让年轻人坐下来,再做下去

35个!2024年国家先进制造业集群名单公布

电动汽车供电设备强制认证将解决哪些问题和隐患?

我国避寒游、冰雪游南北竞相升温

山东东营 生态林场绽放新魅力

2024年我国航司旅客运输量创历史新高

2025年火车票12月18日起售!注意事项和购票流程请查收

为什么要对电动汽车供电设备实施强制性产品认证?

我国大部降水稀少 冷空气频繁多地气温将创新低

未来的实体零售什么样?可能会好玩到超出想象

未来三天全国大部地区天气晴好 中东部地区气温有波动

南方“尔滨”崛起:争夺冰雪旅游市场,优势在哪儿

打造惠及世界的“幸福路”

中日滑雪少年续写冰雪奇缘

宏观政策组合效应持续释放 11月份经济运行延续回升态势

新型储能技术创新不断涌现 长时储能市场前景广阔

跨境物流如何高效链接全球?

倡议合理使用奖助学金 这份善意不应被辜负

湖南持续晴天模式空气干燥 森林火险等级较高注意防火

双旦将至,天猫的「心意」大有来头!

从第1台到1800万台,奔图引领中国打印产业跻身世界头部

首届青少年科普视听大会2025年2月落地四川巴中

帕克探测器将以最近距离“访问”太阳

科学家呼吁全球携手创建AI虚拟细胞

在手机上“玩”卫星——我国将构建天地一体化算力网络

星震学方法可有效探测类太阳恒星小尺度磁场

移动充电机器人“上岗” 助力解决新能源车充电难题

动力电池行业“淘汰赛”加剧 头部企业积极“出海”谋增量

系牢自动驾驶“安全带”

智驾水准阶梯攀升,“地平线杯”十佳智能汽车评价结果发布

定位“科技新豪华”,奇瑞星纪元ET挑战传统德系高端车

制造业转型升级势头强劲

算力迈向多元融合

四部门发文推进中小企业数字化转型

我国将构建天地一体化算力网络

星震学方法可有效探测类太阳恒星小尺度磁场

科学家呼吁全球携手创建AI虚拟细胞

音乐大模型市场“群雄逐鹿”

昇思份额达30% 支持50多个国内外主流大模型

“人工智能+”行动将推动技术和行业共同进步

重庆:“量子+5G” 配网服务平台助力可靠供电

厚植应用创新土壤 中国AI框架聚沙成塔

国产AI框架需持续铸魂强筋

移动充电机器人“上岗” 助力解决新能源车充电难题

“耳朵经济”升温,播客能否持续破圈前行?

机器人领航,打造“五大产业集群”

无人零售智能柜行业加速规范化发展

AI改编短视频不能没边界

超强外放叠加超长续航 vivo Y300正式发布

联想携手AMD打造系列服务器产品

第七届“绽放杯”5G应用征集大赛收官 上海移动实现双突破

“仅退款”成电商平台标配 滥用服务“薅羊毛”可能构成犯罪

青岛啤酒白啤:解锁冰雪醇香,冬日欢乐新篇章

《时代摘要》第三季走进科大讯飞(下):“星火”燎原 用人工智能共创美好世界

上新 提质 惠民——从我国首个国际精品消费月看消费新动向

北京普惠健康保参保破300万,白血病赔付超2000万,月底截止勿错过

个人养老金制度全面实施

房贷利率调整 首月还款为啥变多?

11月份一二三线城市住宅价格同比降幅收窄

证监会:坚决落实“稳住楼市股市”要求

利好来了!多家银行官宣优化升级外币钞汇服务

多个股票指数成份股今起调整 代表性进一步增强