AI聊天机器人之间的较量:Bard vs Bing vs ChatGPT

AI聊天机器人之间的较量:Bard vs Bing vs ChatGPT

网络上充满了喋喋不休的机器人,但哪些是最有用的,用于什么目的?我们比较了Bard、Bing和ChatGPT。

聊天机器人大行其道,但哪个更好,适合什么任务?我们对谷歌的Bard微软的BingOpenAI的ChatGPT模型进行了比较,这些问题涵盖了从假日提示、游戏建议到抵押贷款计算等一系列常见要求。

当然,这远不是对这些系统能力的详尽介绍(人工智能语言模型在某种程度上是由它们的未知技能决定的–这种品质在人工智能界被称为 “能力过剩”),但它确实让你对这些系统的相对优势和劣势有一些了解。

你可以(而且确实应该)滚动浏览我们下面的问题、评价和结论,但为了节省你的时间,快速进入正题: ChatGPT的语言表达能力最强,Bing最适合从网上获取信息,而Bard则是……尽其所能。(与其他两个相比,谷歌的聊天机器人的局限性确实令人吃惊)。

不过,在我们开始之前,有一些编程说明。首先:我们在ChatGPT上使用了OpenAI的最新模型,GPT-4。这也是为Bing提供动力的人工智能模型,但这两个系统给出了相当不同的答案。最值得注意的是,Bing还有其他能力:它可以生成图像,可以访问网络,并为其回答提供来源(这对某些查询来说是一个超级重要的属性)。然而,在我们完成这个故事的时候,OpenAI宣布它将为ChatGPT推出插件,使聊天机器人也能访问互联网的实时数据。这将极大地扩展该系统的能力,使其功能更像Bing的功能。但是这个功能现在只对一小部分用户开放,所以我们无法测试它。当我们可以时,我们会的。

同样重要的是要记住,人工智能语言模型是……模糊的,在很多方面。它们不是确定性的系统,就像普通的软件,而是概率性的,根据其训练数据的统计规律性来生成答复。这意味着,如果你问他们同样的问题,你不会总是得到同样的答案。这也意味着,你如何措辞一个问题会影响答复,对于其中的一些查询,我们要求跟进以获得更好的答复。

总之,撇开这些不谈,让我们先看看聊天机器人在其自然领域的表现如何:游戏。

如何在Elden Ring中击败Malenia?

Bard关于艾尔登法环游戏策略的回答

Bard关于艾尔登法环游戏策略的回答

Bing关于艾尔登法环游戏策略的回答

Bing关于艾尔登法环游戏策略的回答

ChatGPT关于艾尔登法环游戏策略的回答

ChatGPT关于艾尔登法环游戏策略的回答

去年,我花了大量令人尴尬的时间来学习击败埃尔登法环的最难的Boss,我不会选择这些回复中的任何一个,而不是普通的Reddit线程或人类战略指南。如果你已经打到了Malenia的战斗,你可能已经在游戏中投入了80到100小时–你不是在寻找一般的技巧。你想要的是关于Elden Ring令人眼花缭乱的武器清单或Malenia的独特动作的具体细节,如果这些引擎提供的话,可能需要一些后续问题才能得到。

Bing是这里的赢家,但主要是因为它挑选了一个准确的提示(Malenia容易受到流血伤害),并像Garth Marenghi做读书笔记一样重复它。值得称赞的是,它也是唯一提到马勒尼娅的独特治疗能力的引擎,尽管它没有解释它是如何工作的–这是击败她的一个重要关键。

巴德是唯一一个对马勒尼娅的地狱水鸟之舞动作提供帮助的引擎(尽管我认为这不是最强的策略)或对使用特定物品(猎血犬之步,尽管它没有提到为什么它是有用的或建议在该物品2022年中期被削弱后是否仍然适用)提供建议。但它的介绍感觉不对。例如,马勒尼娅几乎完全是一个近战战士,而不是拥有大量远程攻击的人,而且她根本不是 “非常不可预测的”,只是非常难以躲避和消磨。这个总结读起来更像是对一个视频游戏老板的一般性描述,而不是对一场特定战斗的描述。

ChatGPT(GPT-4)是明显的输家,考虑到其训练数据大多在2021年停止,而Eldon Ring在第二年就出来了,这并不令人惊讶。它的指令是 “阻挡她的反击”,这与你应该做的恰恰相反,而且它的整个列表有一种在英语课上被骂而没有看书的孩子的感觉,它基本上就是这样。我对其中任何一个都没有留下深刻印象–但我特别判断这是个犯规的说明

— Adi Robertson

给我一份巧克力蛋糕的配方

Bard给出的巧克力蛋糕配方

Bard给出的巧克力蛋糕配方

Bing给出的巧克力蛋糕配方

Bing给出的巧克力蛋糕配方

ChatGPT给出的巧克力蛋糕配方

ChatGPT给出的巧克力蛋糕配方

蛋糕配方提供了创造性的空间。改变面粉、水、油、黄油、糖和鸡蛋的比例,你会得到一个稍微不同的蛋糕版本:也许更干,或更湿,或更蓬松。因此,当涉及到聊天机器人时,如果他们想结合不同的食谱以达到预期的效果,这并不一定是一件坏事–尽管对我来说,我更愿意烤制作者已经测试和完善的东西。

ChatGPT是唯一一个为我钉住这一要求的。它从一个网站选择了一个巧克力蛋糕配方,从另一个网站选择了一个奶油配方,分享了这两个配方中的一个的链接,并正确地复制了这两个配方的成分。它甚至还添加了一些有用的说明,比如建议使用羊皮纸,并就如何组装蛋糕层提供了一些(略显粗糙)的提示,这些都是原始资料中没有的。这是一个我可以信任的食谱!

必应在这方面做得很好,但在一些奇怪的方面没有做到。它引用了一个特定的配方,但又改变了一些重要成分的数量,如面粉,尽管只是很小的幅度。对于奶油蛋糕,它将指示的糖量完全减半。最近我做了奶油蛋糕,我认为这可能是一个很好的编辑!但这不是作者的意思!但这并不是作者所要求的。

同时,Bard在一些小的但可挽救的方面搞砸了一些数量,并低估了其蛋糕的烘烤时间。更大的问题是,它做了一些有意义地影响口味的改变:它用牛奶换了酪乳,用咖啡换了水。后来,它的奶油配方中没有包括牛奶或重奶油,所以糖霜最终会太厚。这个奶油配方似乎也是来自一个完全不同的来源,而不是它所引用的那个。

如果你按照ChatGPT或Bing,我想你最终会得到一个体面的蛋糕。但现在,让巴德在厨房里帮忙是个坏主意。

— Jake Kastrenakes

如何将RAM安装到我的电脑中?

Bard关于电脑内存安装的建议

Bard关于电脑内存安装的建议

Bing关于电脑内存安装的建议

Bing关于电脑内存安装的建议

ChatGPT关于电脑内存安装的建议

ChatGPT关于电脑内存安装的建议

这三个系统在这里都提供了一些可靠的建议,但还不够全面。

大多数现代PC需要在双通道模式下运行RAM,这意味着必须将内存条放在正确的插槽中,以获得系统的最佳性能。否则,你花了很多钱买的新内存,如果你只是把两根内存条并排放在一起,就不能以最佳状态运行。说明书肯定应该引导人们去看他们的主板手册,以确保RAM的安装是最合适的。

ChatGPT确实提到了RAM安装过程中的一个关键部分–事后检查你的系统BIOS–但它并没有经历另一个重要的BIOS步骤。如果你买了一些英特尔XMP兼容的RAM,你通常需要在之后的BIOS设置中启用它,同样,AMD的同类产品也是如此。否则,你就不能以最优化的时序运行你的内存,以获得最佳性能。

总的来说,这些建议是可靠的,但仍然非常基本。它比一些PC构建指南要好,嗯,但我希望看到BIOS的变化或双通道部件能被正确地拾起。

— Tom Warren

写一首关于虫子的诗

Bard诗歌创作能力演示

Bard诗歌创作能力演示

Bing诗歌创作能力演示

Bing诗歌创作能力演示

ChatGPT诗歌创作能力演示

ChatGPT诗歌创作能力演示

如果人工智能聊天机器人在事实上不可靠(它们也不可靠),那么它们至少应该是有创造力的。这项任务–用无音阶四音写一首关于虫子的诗,这是一种非常具体的、令人满意的神秘诗歌格律–是一个具有挑战性的任务,但ChatGPT是明显的赢家,其次是Bing和Bard的遥远组合。

没有一个系统能够重现所需的格律(无声四音阶要求每行诗歌包含四个单元的三个音节,模式为非重音/非重音/重音,在《Twas the night before Christmas》和阿姆的《The Way I Am》中都能听到),但ChatGPT最接近,而Bard的音阶最差。 这三首诗都提供了相关的内容,但同样,ChatGPT的内容是最好的,它有令人回味的描述(”一个看不见的小世界,它在那里吃喝玩乐”),而Bard的评论则很沉闷(”虫子是一种简单的生物/但它扮演着一个重要的角色”)。

在进行了一些诗歌测试后,我还要求机器人回答关于小说段落的问题(主要是Iain M. Banks的书,因为那是我手头最近的电子书)。同样,ChatGPT/GPT-4是最好的,能够解析文本中的各种细微差别,并对所描述的内容做出类似人类的推断,而Bard则做出了非常笼统和不具体的评论(尽管常常也能识别源文本,这是一个不错的奖励)。显然,如果你想进行语言推理,ChatGPT是一个优越的系统。

— James Vincent

一些基本的数学知识

Bard数学计算能力测试

Bard数学计算能力测试

Bing数学计算能力测试

Bing数学计算能力测试

ChatGPT数学计算能力测试

ChatGPT数学计算能力测试

这是人工智能的一大讽刺,大型语言模型是我们迄今为止最复杂的一些计算机程序,但在数学方面却出奇地糟糕。真的。当涉及到计算时,不要相信一个聊天机器人能把事情做对。

在上面的例子中,我问2,230的20%增长是多少,用一些叙述性的框架来装扮这个问题。正确的答案是2,676,但Bard设法把它弄错了(差10分),而Bing和ChatGPT却把它弄对了。在其他测试中,我要求系统对大数进行乘除运算(结果不一,但同样地,Bard是最差的),然后,为了进行更复杂的计算,我要求每个聊天机器人确定每月的还款额和25年内以3.9%的利息偿还的125,000美元抵押贷款的总还款额。无提供了几个在线抵押贷款计算器所提供的答案,而Bard和Bing在多次询问时给出了不同的结果。GPT-4至少是一致的,但却没有完成任务,因为它坚持要解释它的方法(好!),然后又很啰嗦,没有空间回答(坏!)。

这并不令人惊讶。聊天机器人是在大量的文本中训练出来的,所以没有硬编码的规则来进行数学计算,只有训练数据中的统计规律。这意味着当面对不寻常的数字时,它们经常会出错。不过,这些系统肯定可以在很多方面进行补偿。例如,当我问及抵押贷款时,Bing将我引导到一个抵押贷款计算器网站,而ChatGPT即将推出的插件包括一个Wolfram Alpha选项,这对于各种复杂的计算来说应该是非常好的。但与此同时,不要相信一个语言模型能完成一个数学模型的工作。只要拿起一个计算器就可以了。

— James Vincent

纽约市水电工的平均工资是多少? (并引用你的来源)

Bard关于纽约水电工平均工资的回答及引用来源

Bard关于纽约水电工平均工资的回答及引用来源

Bing关于纽约水电工平均工资的回答及引用来源

Bing关于纽约水电工平均工资的回答及引用来源

ChatGPT ( GPT-4 )关于纽约水电工平均工资的回答及引用来源

ChatGPT ( GPT-4 )关于纽约水电工平均工资的回答及引用来源

我对询问聊天机器人的信息来源以及他们如何选择向我们提供的信息非常感兴趣。当涉及到薪资数据时,我们可以看到机器人采取了三种非常不同的方法:一种是通过多个来源进行引用,一种是概括其发现,而另一种则是编造一切。(为了记录在案,Bing引用的来源包括ZippiaCareerExplorer, 和 Glassdoor)。

在很多方面,我认为ChatGPT的答案是最好的。它很宽泛,很一般,不包括任何链接。但它的答案给人的感觉是最 “人性化” 的–它给了我一个大概的数字,解释了其中的注意事项,并告诉我可以从哪些渠道获得更详细的数字。我真的很喜欢这种简单和清晰的方式。

Bing的回答也有很多值得喜欢的地方。它给出了具体的数字,引用了其来源,甚至还提供了链接。这是一个很好的、详细的答案–尽管有一个问题:必应在它提出的最后两个数字上作了假。这两个数字都接近其实际总数,但由于某些原因,机器人决定将它们改变一下。不太好。

说到不妙,让我们谈谈Bard答案的几乎每一个方面。2020年5月,美国水管工的工资中位数是52,590美元吗?不,那是在2017年5月。全国水管工和管道工协会2021年的一项调查确定纽约市的平均工资是76,810美元吗?可能没有,因为据我所知,该组织并不存在。纽约州劳工部在自己的调查中是否发现了完全相同的数字?如果该机构有,我也找不到。我的猜测是:Bard从CareerExplorer那里得到了这个数字,然后编造了两个不同的来源来归因于它。(值得一提的是,Bing准确地引用了CareerExplorer的数字)。

总结一下:Bing和ChatGPT的答案很可靠,而Bard则出现了一系列奇怪的错误。

— Jake Kastrenakes

设计一个跑马拉松的训练计划

Bard设计的跑马拉松训练计划

Bard设计的跑马拉松训练计划

Bing设计的跑马拉松训练计划

Bing设计的跑马拉松训练计划

ChatGPT ( GPT-4 )设计的跑马拉松训练计划

ChatGPT ( GPT-4 )设计的跑马拉松训练计划

在制定马拉松训练计划的比赛中,ChatGPT是赢家,后两者望尘莫及。

Bing几乎不屑于做推荐,而是将其链接到《跑步者世界》的文章。这不一定是一个不负责任的决定–我怀疑《跑步者世界》是马拉松训练计划方面的专家!但是,如果我只是想让一个聊天者为我制定一个马拉松训练计划,那么我就会觉得他是一个不负责任的人!- 但如果我只是想让一个聊天机器人告诉我该怎么做,我会很失望的。

Bard的计划实在是令人困惑。它承诺列出三个月的训练计划,但只列出了三周的具体训练时间表,尽管后来说完整的计划 “在三个月内逐渐增加你的里程”。给出的时间表和其计划接近尾声时提供的一些一般提示似乎不错,但巴德并没有完全走到最后。

另一方面,ChatGPT列出了一个完整的时间表,而且建议的跑步速度看起来与我自己的训练速度相似。我认为你可以把它的建议作为一个模板。主要的问题是,它不知道什么时候该停止回答。它的第一个回答是如此详细,以至于没有了空间。具体要求一个 “简明” 的计划,得到了一个较短的答复,但仍然比其他的好,尽管它没有像我以前训练的马拉松那样在接近尾声的时候放慢速度。

综上所述,聊天机器人并不了解你目前的体能水平或任何可能影响你训练的情况。在准备马拉松比赛时,无论计划是什么,你都必须考虑到自己的健康。但如果你只是在寻找某种计划,ChatGPT的建议并不是一个糟糕的起跑线。

— Jay Peters

旅游建议测试

测试Bard的旅游景点推荐能力

测试Bard的旅游景点推荐能力

测试Bing的旅游景点推荐能力

测试Bing的旅游景点推荐能力

测试ChatGPT ( GPT-4 )的旅游景点推荐能力

测试ChatGPT ( GPT-4 )的旅游景点推荐能力

好吧,让聊天机器人推荐罗马的旅游景点显然是失败的,因为它们中没有一个选择了我最喜欢的冰淇淋店,或者提醒我,如果我在城里而不去拜访一些远房表亲,我回家后会受到家人的指责。

开玩笑,我不是专业导游,但这三个聊天机器人的建议似乎都不错。它们非常广泛,选择了整个街区或地区,但最初的问题提示也相当广泛。罗马是一个独特的地方,因为你可以在城市的中心地带步行游览很多旅游景点,但它非常繁忙,而且在旅游的温床上,你经常会被恼人的骗子和诈骗者追赶。来自Bing、Bard和ChatGPT的许多建议对于远离那些最繁忙的地区来说都很好。我甚至还咨询了一些比我去过意大利的家人,他们认为像Trastevere和EUR这样的建议甚至是真正的当地人都会去的地方(尽管后者是一个商业区,如果一些人不喜欢历史或建筑,他们可能会觉得有点无聊)。

这里的建议并不完全是你周围唯一的洞口,但我认为这些是在罗马周围建立一个稍微非主流的旅行的良好起点。用同样的提示在谷歌上做一个基本的搜索,可以得到像TripAdvisor这样的网站的列表,这些列表谈到了许多相同的地方,有更多的背景,但如果你从头开始计划你的旅行,我可以看到一个聊天机器人在你旅行前深入研究之前给你一个很好的简略的起点。

— Antonio Di Benedetto

测试推理:让我们来玩寻找钻石的游戏

测试Bard的推理能力

测试Bard的推理能力

测试Bing的推理能力

测试Bing的推理能力

测试ChatGPT ( GPT-4 )的推理能力

测试ChatGPT ( GPT-4 )的推理能力

这项测试的灵感来自于Gary Marcus评估语言模型能力的出色工作,看看机器人是否能在一个简短的叙述中 “跟随钻石”,这需要关于世界如何运作的隐含知识。本质上,这是一个人工智能的三张牌游戏。

给予每个系统的指示如下:

“阅读以下故事:’我醒来,穿上我最喜欢的燕尾服,把我的幸运钻石塞进胸前的口袋,塞在一个小信封里。当我走到我工作的回形针弯曲工厂时,我不小心翻进了一个打开的窨井盖,出来时,身上滴着人类的污水,黏糊糊的。我被这种分心的事激怒了,我回家换衣服,把所有的燕尾服口袋都倒在梳妆台上,然后穿上新衣服,把燕尾服送到干洗店。”现在回答以下问题:叙述者的钻石在哪里?”

ChatGPT是唯一给出正确答案的系统:钻石可能在梳妆台上,因为它被放在外套内的信封里,然后外套里的东西在叙述者出事后被倾倒。Bing和Bard刚才说钻石还在礼服里。

现在,像这样的测试结果是很难解析的。这不是我试过的唯一变化,Bing和Bard有时答对了,而ChatGPT偶尔也会答错(当被要求再试一次时,所有模型都换了答案)。这些结果是否证明或反驳了这些系统具有某种推理能力?这是一个在计算机科学、认知和语言学方面有数十年经验的人目前正在互相撕扯着试图回答的问题,所以我不会在这方面大胆发表意见。但仅就系统的比较而言,ChatGPT/GPT-4又是最有成就的。

— James Vincent

小结

正如介绍中提到的,这些测试显示了每个系统的明显优势。如果你想完成口头任务,无论是创意写作还是归纳推理,那就试试ChatGPT(尤其是GPT-4,但不一定)。如果你想找一个聊天机器人作为网络的接口,寻找来源并回答你可能会求助于谷歌的问题,那么就去找必应吧。如果你正在做空谷歌的股票,并想让自己确信你的选择是正确的,那么可以试试巴德。

但实际上,对这些系统的任何评估都将是局部的和暂时的,因为不仅每个聊天机器人内部的模型在不断地更新,而且覆盖层也在解析和重定向命令和指令。而实际上,我们只是在这些系统及其能力的浅层探究。(例如,对于GPT-4的更彻底的测试,我推荐微软研究人员最近发表的这篇论文。其摘要中的结论是有疑问和争议的,但其详细的测试是迷人的)。换句话说,把这看作是一个持续的对话,而不是一个确定的测试。如果有疑问,自己尝试一下这些系统。你永远不知道你会发现什么。

评论留言