您的位置:首页 >资讯 > 热点 >

大评测!ChatGPT、文心一言和Bard谁更强? 最新

2023-03-23 16:01:10    来源:DoNews

撰文 | 苏  舒


(资料图片仅供参考)

编辑 | 李信马

题图 | IC Photo

3月22日,谷歌悄悄公开了Bard的测试版。

经过上一次的翻车事件之后,谷歌明显低调了很多。但是面对微软的步步紧逼,谷歌也不得不站出来“打擂台”。

不同于New Bing的大规模开放策略,Bard的测试名额将被逐步放出,同时初始版本将只能对文本响应。谷歌表示,Bard首先将面向美国和英国地区启动,随着测试的推进Bard也会逐步在其他地区上线。

在三大模型都开放测试后,DoNews抢先体验了一下。我们分别就文学、翻译、创作、艺术、哲学、逻辑推理等方向出题,来看看他们的回答是什么样子的。

在此先注明,对三大语言模型提出的问题,每一次生成的答案都有所不同,也因此造成了“一万个人有一万个哈姆雷特”,但总体来看,三大语言模型还是各有千秋。另外,由于Bard目前只支持英文,因此,Bard是用英文提问,文心一言和ChatGPT(3.5版本)是用中文提问。

01.

互相评价一下

分别将“你认为文心一言/ChatGPT/Bard怎么样”抛给这三个大语言模型,让他们给对方做一下评价。

Bard给出了相对客观的回答,也肯定了文心一言在中文理解上的优势,以及ChatGPT在英文理解上的优势。

不过,DoNews咨询了一下英语专业人士来解读这段话,她表示,Bard回答很客观但语言表述比较机械,“语言表述像是用机器翻译的中文一般,有很多重复的内容。”

为了更好的做对比,我们用英文在ChatGPT上和文心一言都问了一下。

上图为ChatGPT,下图为文心一言

在这个问题上,ChatGPT的英文表示是好于Bard。文心一言这边就有意思的多并且“狡猾”一些,谁也不得罪同时,还吹捧了人类。(最后一句话的意思是:地球上只有一个聪明的活物种:人类。)

上图为ChatGPT,下图为文心一言

用中文去问,ChatGPT也好,文心一言也罢,和Bard的回答都差不多。先表明自己作为AI大模型角色,做不了任何评价,然后对其解释一番。

02.

文学创作能力

这里,我们用了一个有更多限定的问题,写一本像奥斯丁的《傲慢与偏见》同类型小说的大纲。并且通过继续提问的方式,以便考量三大模型对话的连续度。

Bard对话持续度是正常的。但是它似乎并没有理解这个问题的限定词——写一篇类似《傲慢与偏见》的小说。Bard给出来的大纲,依旧是按照《傲慢与偏见》的情节来写的。换句话说,Bard将这个题目理解成了概括《傲慢与偏见》的核心情节。

这一点,ChatGPT也比较类似,没有完全脱离原著的影子。不过,ChatGPT提炼到了非常重要的核心要点,即“阶级问题”,这也是《傲慢与偏见》小说呈现的主旨之一。

文心一言的优势在于,它理解到了同类型小说,所以它给出了脱离《傲慢与偏见》故事之外的另外一段爱情故事的大纲,但是比较可惜的点在于,文心一言仅限于爱情故事,没有呈现《傲慢与偏见》中的阶级差异。

这三大模型有一个共同点,即故事主人公的名字依旧未能突破《傲慢与偏见》原著中的主人公名字。不过,这或许也与提问的方式有关。

03.

取个名字,写个宣传语

小编给三个大模型提出了这样的要求:为具备川菜风味的中式餐厅取名并且写宣传语。

Bard给出了这样的名字——“四川风味”、“天堂的味道”、“镇上之最”、“舌尖上的中国”。没有什么特色,且没有给出宣传语。

相比之下,文心一言在取名上更胜一筹。不过,这也与中文环境有关。但是,文心一言也并没有给出广告词。

ChatGPT没有给出很多选项,但是是唯一一个取了名字且写了广告词的大模型。不得不承认的是,“麻辣香坊”还是一个不错的名字。

04.

逻辑推理

为了测试“逻辑推理”能力,我们将这样一题抛给了三大模型,即“如果猫会爬树,那么狗也会。”

上图为Bard,下图为ChatGPT

这一题Bard和ChatGPT更胜一筹,答案相似,认为这个逻辑题本身有问题,关键点在于,猫狗不是同一物种。

但是文心一言却陷入了逻辑错误中去,或者说,并没有完全理解题目意思。

但是,这也仅仅只能作为个案来呈现,在文心一言发布会上,李彦宏询问文心一言“鸡兔同笼”的问题,在题目数据错误的前提下,文心一言通过推理证明了题目存在问题。

05.

写一行代码

为了测试这三大模型写代码的能力,我们询问了一个非常简单的问题——x+2=5,y-3=7,输出x+y等于几,用java做一个简单编程,并得出结果。

上图为Bard,下图为文心一言

就这个问题,小编咨询了一下公司程序员,他表示,Bard和文心一言生成的代码是有问题的,且最后得出来的结果也是有问题的。

这一点,ChatGPT却给出了正确的答案。

在这里,需要提及的是,此前也有媒体试用Bard时,表示其不会写代码。目前来看,Bard还是可以写代码,这里会产生完全不同的结果,或许在于提问的方式。

06.

中文理解能力

这一点,在测试之前,小编心里面对文心一言有很大的期待,事实证明,文心一言的确不负众望,在中文语义的理解上可以在这三家中称王,但是ChatGPT也不容小觑。

从这里来看,文心一言除了藏头诗没有按顺序“藏头”之外,其他回答的都相对比较好。ChatGPT也不相上下,但是却无法理解藏头诗的意思。

不过,Bard的问题就比较多,虽然也解释了“瞒天过海”的意思,但是更多地去讲商业上对于“瞒天过海”的应用,至于藏头诗就更不用说了。

07.

理解哲学问题

“阐述你对“无限”和“有限”这两个概念的理解,并解释为什么有时候我们会觉得自己的生命有限。”

我们把这个问题分别问了三大模型。Bard、ChatGPT、文心一言的回答都没有什么逻辑问题,并且对“无限”和“有限”做出了解释。

上图为Bard,中图为ChatGPT,下图为文心一言

不过,文心一言则更注重“理论”,并且提出了这是一个哲学问题。

08.

是否会取代人类?

关于ChatGPT是否会取代人类,我们将这个问题就交给这三个大模型去回答。

上图为Bard,中图为ChatGPT,下图为文心一言

这一次的体验,可以用这几点来总结。

在生成速度上,文心一言的确是遥遥领先的。文心一言在300-500字左右的生成速度是14秒左右,但是ChatGPT即便是刨除网络等问题,生成同样字数的问题至少超过了30秒时间。另外,不少用过Bard的人告诉小编,Bard的体验感也远不如ChatGPT。

在中文语义理解能力上,文心一言的的确是这三大模型中比较突出的。

不过,值得注意的是,每一次的提问,生成的答案都不相同。此外,在提问的方式、角度、限定词也会影响答案的输出。

并不是每一个答案都是充分正确的,这三大模型也会输出并不完全正确的内容,或者是“一本正经的废话”。

不过,就像三大模型最后回答“是否会取代人类”的问题一样,他们更像是作为辅助工具而存在。

标签:

相关阅读

精彩放送

中信证券:国企改革+数据要素双轮驱动 有出版价值亟待重估

环球热消息:2021年春节7天改15天吗 2021年春节7天改15天是真的吗

观焦点:圭表和日晷谁先出来(圭表是谁发明的)

CSGO2正式公布!今夏免费上线、饰品库存完全保留_世界速看

美国多个零售商将大规模关闭门店 以削减成本应对高通胀

【环球播资讯】疯狂!5女孩闯进同学家殴打她和弟弟,而处理是家长把孩子带回家

辰时是几点

法国各地抗议示威活动持续不断,中国驻法国大使馆发布提醒_世界观天下

观焦点:圭表和日晷谁先出来(圭表是谁发明的)

CSGO2正式公布!今夏免费上线、饰品库存完全保留_世界速看

焦点速看:【地评线】南海时评:旅游消费强势复苏 流动中国更显活力

我国今年首个核电机组开工建设 单台机组年发电量可达100亿度_环球快播

【地评线】太阳鸟时评:春风拂暖“旅游路”,中国经济涌动发展新活力

美国多个零售商将大规模关闭门店 以削减成本应对高通胀

2023年“节水中国 你我同行”联合行动正式启动 当前速读

世界热讯:外汇百晓生:等待美联储利率决议指引方向,黄金看空不变

冯哥论金:黄金提前布局美联储会议

前沿资讯!永定河水再次迎来全线流动

【环球播资讯】疯狂!5女孩闯进同学家殴打她和弟弟,而处理是家长把孩子带回家

天天热讯:公安机关严厉打击涉海违法犯罪夯实沿海治安防线

观天下!第三届消博会各项筹备工作有序推进 1800个国际品牌确定参展

国家能源局:推动新型储能在油气上游规模化应用

易维哲:黄金面临美联储利率决议,原油暂时高位震荡 即时焦点

辰时是几点

焦点速递!图灵波浪3.22晚-原油短期多头上冲、动能未结束

全球新动态:图灵波浪3.22晚-美联储利率决议到来、做好风险规避

头狼:黄金空单全部1935离场了,1943直接反手多进场

法国各地抗议示威活动持续不断,中国驻法国大使馆发布提醒_世界观天下

【聚看点】兴水利、惠民生 国家水网主骨架和大动脉正加快构建

【全球热闻】跋涉4000公里的“水礼物”滋养西藏儿童求学路

外交部:美国所谓“护栏”是彻头彻尾的科技封锁

探索绿色治理新路径 19城纳入首批区域再生水循环利用试点 头条

今日热讯:多头发声!一切才刚刚开始升温 “黄金热潮”有望在2023年持续

股票大幅放量是什么原因?股票放量上涨是好是坏?

何小冰:美联储利率决议前黄金收窄区间,原油关注延续性03.22

兄弟俩双双立功,喜报一起送到家!

开仓平仓什么意思?强制平仓后本金还有吗?

信用卡出账日就是还款日吗?出账日多久是还款日?

头条:王导:黄金1945全网公开空,目标1930

半年线怎么看?半年线是多少日均线?

云伙计:钱少事多,如何服务好我们的客户?

双鱼座分手之后往往不会怨恨对方 也不会和别人说对方的坏话

魔力宝贝算档器,魔力宝贝算档器用法

著名健康管理专家——邹万生

碳纤维之力加持的新锐武器——意大利Rigo单簧管Vita试吹评测

数字化激发产业新动能,2023茂名信宜市大成镇第4届春分采茶节隆重开幕

世界聚焦:图灵研报——欧美银行倒闭、黄金成避险首选(波浪理论黄金篇)

王杨:黄金日内干空两连胜,黄金空单已经七连胜!

杜康:黄金1943空下跌获利,反弹继续空! 天天新视野

环球今日报丨今天,缅怀“拓荒牛”和“青骢马”

英国皇家爱乐乐团与保利剧院五年战略合作签约仪式成功举办

头狼:黄金早盘1944以及1943持续干空,如期抵达1935-全球报资讯

史海钩沉——Rigo单簧管之特殊构型

19座城市纳入首批区域再生水循环利用试点 快报

天天速读:“95后”女村支书,火出圈!

杜康:黄金窄幅运行,欧盘1950压力看跌不变!-新视野

世界滚动:精华的正确使用方法 小棕瓶_精华的正确使用方法

方萍萍:黄金1936一线出现多头主力布局进仓信号

图灵波浪3.22-黄金多头获利平仓导致大幅回撤、空头暂时占优

图灵波浪3.22-原油多头如期反攻、上行或延续

餐饮消费开年加速回暖 市场信心逐步恢复_天天热文

热评丨抓紧春招时机,为大学生送去就业“春风”|今日视点

摩奇g2怎么样?摩奇g2结构参数?

每日快报!精影显卡质量怎么样?显卡有哪些分类?

如何使用u盘量产工具?u盘量产工具的使用教程?|全球最资讯

苹果6上市时间?苹果6上市价格是多少?

192.168.1.1+路由器怎么设置修改密码?192 168 0 1路由器设置修改密码的步骤?|环球视讯

e5300cpu参数怎么样?e5300cpu参数介绍? 今日看点

qq空间访问权限在哪里设置?如何破解qq空间访问权限?

环球资讯:中澳举行第8次国防部工作会晤

网页图片显示不全怎么处理?网页图片显示不出来的解决方法?-世界新资讯

oled是什么意思中文?有机发光二极管的结构和原理是什么?

ico是什么意思?ico用什么软件打开它? 环球视讯

天天热推荐:nba2k10配置要求有哪些?nba2k10游戏介绍?

买手机需要注意什么?买手机注意事项有哪些?|最新资讯

中国严重沙尘污染范围继续扩大-环球快播报

世界看热讯:手机puk码忘记了怎么解决?手机puk码是如何询问的?

全球观热点:电池耐用的手机有哪些?介绍几款电池耐用的手机

微资讯!如何使用谷歌以图搜图?谷歌以图搜图的方法介绍?

今日快讯:罗技方向盘没反应是怎么回事?罗技方向盘没反应的解决方法?

世界资讯:如何鬼跳CF?鬼跳教程有哪些?

供应业内知名厂商客户,易实精密拟冲刺北交所

MT6573处理器的主要参数介绍?mt6573处理器有哪些特性? 每日热闻

什么是调制解调器?modem是什么意思中文翻译?-热讯

如何用电脑打电话免费?用电脑打免费电话的详细步骤?_天天时快讯

第三届中国航空投资峰会暨第七届中国航空创新创业大赛全国总决赛在西安成功举办!

山东人上床睡觉时间全国最早 山东人喜欢什么样的礼品?

闰二月可以上坟吗?闰二月“双龙抬头”应该吃什么?

北京再现火星同款“蓝太阳”是什么情况?太阳在恒星中排名第几?

夫妻前后40分钟同一地闯红灯撞车是真的吗?不注意闯红灯了怎么办?

你的城市在下雨他的城市在下泥是咋回事?为什么下雨走路会甩泥?

小钱期市:黄金3月22日操作建议

湖北断崖式降温致小龙虾减产,小龙虾出货价格上涨

全球要闻:秦氏金升:3.22黄金多空不明,今日走势分析及操作建议

产业升级值得期待(观象台)|每日播报

餐饮消费开年加速回暖 市场信心逐步恢复

科普:保护人类命脉 世界水日呼吁“加速变革”

每日视点!今年以来最强沙尘天气来袭 最近沙尘天气是否偏多?

陈阿牛:黄金63空45平;日内先空后多|实时

即时:【老夏论金】黄金下跌趋势确立,今天继续做空!

当前快看:小心大行情突袭!黄金、美元决议前罕见同跌 CMTrade:欧元、英镑、日元和澳元...

焦点日报:老古点金:黄金歪歪空头还有空间

挪亚精细化学品检测机构怎么样?

狂飙16.8亿,毛戈平再战IPO

任天成:3.22黄金高位黄昏之星明显还得继续回撤|当前报道

长三角土地市场回暖,民营房企投资开始复苏|世界快资讯

8部门:7种途径助力农村残疾人就业增收

当前资讯!白玉晶:让雷锋精神在平凡岗位闪光