網路上充滿了喋喋不休的機器人,但哪些是最有用的,用於什麼目的?我們比較了Bard、Bing和ChatGPT。
聊天機器人大行其道,但哪個更好,適合什麼任務?我們對谷歌的Bard、微軟的Bing和OpenAI的ChatGPT模型進行了比較,這些問題涵蓋了從假日提示、遊戲建議到抵押貸款計算等一系列常見要求。
當然,這遠不是對這些系統能力的詳盡介紹(人工智慧語言模型在某種程度上是由它們的未知技能決定的–這種品質在人工智慧界被稱為 “能力過剩”),但它確實讓你對這些系統的相對優勢和劣勢有一些瞭解。
你可以(而且確實應該)滾動瀏覽我們下面的問題、評價和結論,但為了節省你的時間,快速進入正題: ChatGPT的語言表達能力最強,Bing最適合從網上獲取資訊,而Bard則是……盡其所能。(與其他兩個相比,谷歌的聊天機器人的侷限性確實令人吃驚)。
不過,在我們開始之前,有一些程式設計說明。首先:我們在ChatGPT上使用了OpenAI的最新模型,GPT-4。這也是為Bing提供動力的人工智慧模型,但這兩個系統給出了相當不同的答案。最值得注意的是,Bing還有其他能力:它可以生成影象,可以訪問網路,併為其回答提供來源(這對某些查詢來說是一個超級重要的屬性)。然而,在我們完成這個故事的時候,OpenAI宣佈它將為ChatGPT推出外掛,使聊天機器人也能訪問網際網路的實時資料。這將極大地擴充套件該系統的能力,使其功能更像Bing的功能。但是這個功能現在只對一小部分使用者開放,所以我們無法測試它。當我們可以時,我們會的。
同樣重要的是要記住,人工智慧語言模型是……模糊的,在很多方面。它們不是確定性的系統,就像普通的軟體,而是概率性的,根據其訓練資料的統計規律性來生成答覆。這意味著,如果你問他們同樣的問題,你不會總是得到同樣的答案。這也意味著,你如何措辭一個問題會影響答覆,對於其中的一些查詢,我們要求跟進以獲得更好的答覆。
總之,撇開這些不談,讓我們先看看聊天機器人在其自然領域的表現如何:遊戲。
如何在Elden Ring中擊敗Malenia?
Bard關於艾爾登法環遊戲策略的回答
Bing關於艾爾登法環遊戲策略的回答
ChatGPT關於艾爾登法環遊戲策略的回答
去年,我花了大量令人尷尬的時間來學習擊敗埃爾登法環的最難的Boss,我不會選擇這些回覆中的任何一個,而不是普通的Reddit執行緒或人類戰略指南。如果你已經打到了Malenia的戰鬥,你可能已經在遊戲中投入了80到100小時–你不是在尋找一般的技巧。你想要的是關於Elden Ring令人眼花繚亂的武器清單或Malenia的獨特動作的具體細節,如果這些引擎提供的話,可能需要一些後續問題才能得到。
Bing是這裡的贏家,但主要是因為它挑選了一個準確的提示(Malenia容易受到流血傷害),並像Garth Marenghi做讀書筆記一樣重複它。值得稱讚的是,它也是唯一提到馬勒尼婭的獨特治療能力的引擎,儘管它沒有解釋它是如何工作的–這是擊敗她的一個重要關鍵。
巴德是唯一一個對馬勒尼婭的地獄水鳥之舞動作提供幫助的引擎(儘管我認為這不是最強的策略)或對使用特定物品(獵血犬之步,儘管它沒有提到為什麼它是有用的或建議在該物品2022年中期被削弱後是否仍然適用)提供建議。但它的介紹感覺不對。例如,馬勒尼婭幾乎完全是一個近戰戰士,而不是擁有大量遠端攻擊的人,而且她根本不是 “非常不可預測的”,只是非常難以躲避和消磨。這個總結讀起來更像是對一個視訊遊戲老闆的一般性描述,而不是對一場特定戰鬥的描述。
ChatGPT(GPT-4)是明顯的輸家,考慮到其訓練資料大多在2021年停止,而Eldon Ring在第二年就出來了,這並不令人驚訝。它的指令是 “阻擋她的反擊”,這與你應該做的恰恰相反,而且它的整個列表有一種在英語課上被罵而沒有看書的孩子的感覺,它基本上就是這樣。我對其中任何一個都沒有留下深刻印象–但我特別判斷這是個犯規的說明。
— Adi Robertson
給我一份巧克力蛋糕的配方
Bard給出的巧克力蛋糕配方
Bing給出的巧克力蛋糕配方
ChatGPT給出的巧克力蛋糕配方
蛋糕配方提供了創造性的空間。改變麵粉、水、油、黃油、糖和雞蛋的比例,你會得到一個稍微不同的蛋糕版本:也許更幹,或更溼,或更蓬鬆。因此,當涉及到聊天機器人時,如果他們想結合不同的食譜以達到預期的效果,這並不一定是一件壞事–儘管對我來說,我更願意烤製作者已經測試和完善的東西。
ChatGPT是唯一一個為我釘住這一要求的。它從一個網站選擇了一個巧克力蛋糕配方,從另一個網站選擇了一個奶油配方,分享了這兩個配方中的一個的連結,並正確地複製了這兩個配方的成分。它甚至還新增了一些有用的說明,比如建議使用羊皮紙,並就如何組裝蛋糕層提供了一些(略顯粗糙)的提示,這些都是原始資料中沒有的。這是一個我可以信任的食譜!
必應在這方面做得很好,但在一些奇怪的方面沒有做到。它引用了一個特定的配方,但又改變了一些重要成分的數量,如麵粉,儘管只是很小的幅度。對於奶油蛋糕,它將指示的糖量完全減半。最近我做了奶油蛋糕,我認為這可能是一個很好的編輯!但這不是作者的意思!但這並不是作者所要求的。
同時,Bard在一些小的但可挽救的方面搞砸了一些數量,並低估了其蛋糕的烘烤時間。更大的問題是,它做了一些有意義地影響口味的改變:它用牛奶換了酪乳,用咖啡換了水。後來,它的奶油配方中沒有包括牛奶或重奶油,所以糖霜最終會太厚。這個奶油配方似乎也是來自一個完全不同的來源,而不是它所引用的那個。
如果你按照ChatGPT或Bing,我想你最終會得到一個體面的蛋糕。但現在,讓巴德在廚房裡幫忙是個壞主意。
— Jake Kastrenakes
如何將RAM安裝到我的電腦中?
Bard關於電腦記憶體安裝的建議
Bing關於電腦記憶體安裝的建議
ChatGPT關於電腦記憶體安裝的建議
這三個系統在這裡都提供了一些可靠的建議,但還不夠全面。
大多數現代PC需要在雙通道模式下執行RAM,這意味著必須將記憶體條放在正確的插槽中,以獲得系統的最佳效能。否則,你花了很多錢買的新記憶體,如果你只是把兩根記憶體條並排放在一起,就不能以最佳狀態執行。說明書肯定應該引導人們去看他們的主機板手冊,以確保RAM的安裝是最合適的。
ChatGPT確實提到了RAM安裝過程中的一個關鍵部分–事後檢查你的系統BIOS–但它並沒有經歷另一個重要的BIOS步驟。如果你買了一些英特爾XMP相容的RAM,你通常需要在之後的BIOS設定中啟用它,同樣,AMD的同類產品也是如此。否則,你就不能以最優化的時序執行你的記憶體,以獲得最佳效能。
總的來說,這些建議是可靠的,但仍然非常基本。它比一些PC構建指南要好,嗯,但我希望看到BIOS的變化或雙通道部件能被正確地拾起。
— Tom Warren
寫一首關於蟲子的詩
Bard詩歌創作能力演示
Bing詩歌創作能力演示
ChatGPT詩歌創作能力演示
如果人工智慧聊天機器人在事實上不可靠(它們也不可靠),那麼它們至少應該是有創造力的。這項任務–用無音階四音寫一首關於蟲子的詩,這是一種非常具體的、令人滿意的神祕詩歌格律–是一個具有挑戰性的任務,但ChatGPT是明顯的贏家,其次是Bing和Bard的遙遠組合。
沒有一個系統能夠重現所需的格律(無聲四音階要求每行詩歌包含四個單元的三個音節,模式為非重音/非重音/重音,在《Twas the night before Christmas》和阿姆的《The Way I Am》中都能聽到),但ChatGPT最接近,而Bard的音階最差。 這三首詩都提供了相關的內容,但同樣,ChatGPT的內容是最好的,它有令人回味的描述(”一個看不見的小世界,它在那裡吃喝玩樂”),而Bard的評論則很沉悶(”蟲子是一種簡單的生物/但它扮演著一個重要的角色”)。
在進行了一些詩歌測試後,我還要求機器人回答關於小說段落的問題(主要是Iain M. Banks的書,因為那是我手頭最近的電子書)。同樣,ChatGPT/GPT-4是最好的,能夠解析文字中的各種細微差別,並對所描述的內容做出類似人類的推斷,而Bard則做出了非常籠統和不具體的評論(儘管常常也能識別源文字,這是一個不錯的獎勵)。顯然,如果你想進行語言推理,ChatGPT是一個優越的系統。
— James Vincent
一些基本的數學知識
Bard數學計算能力測試
Bing數學計算能力測試
ChatGPT數學計算能力測試
這是人工智慧的一大諷刺,大型語言模型是我們迄今為止最複雜的一些計算機程式,但在數學方面卻出奇地糟糕。真的。當涉及到計算時,不要相信一個聊天機器人能把事情做對。
在上面的例子中,我問2,230的20%增長是多少,用一些敘述性的框架來裝扮這個問題。正確的答案是2,676,但Bard設法把它弄錯了(差10分),而Bing和ChatGPT卻把它弄對了。在其他測試中,我要求系統對大數進行乘除運算(結果不一,但同樣地,Bard是最差的),然後,為了進行更復雜的計算,我要求每個聊天機器人確定每月的還款額和25年內以3.9%的利息償還的125,000美元抵押貸款的總還款額。無提供了幾個線上抵押貸款計算器所提供的答案,而Bard和Bing在多次詢問時給出了不同的結果。GPT-4至少是一致的,但卻沒有完成任務,因為它堅持要解釋它的方法(好!),然後又很囉嗦,沒有空間回答(壞!)。
這並不令人驚訝。聊天機器人是在大量的文字中訓練出來的,所以沒有硬編碼的規則來進行數學計算,只有訓練資料中的統計規律。這意味著當面對不尋常的數字時,它們經常會出錯。不過,這些系統肯定可以在很多方面進行補償。例如,當我問及抵押貸款時,Bing將我引導到一個抵押貸款計算器網站,而ChatGPT即將推出的外掛包括一個Wolfram Alpha選項,這對於各種複雜的計算來說應該是非常好的。但與此同時,不要相信一個語言模型能完成一個數學模型的工作。只要拿起一個計算器就可以了。
— James Vincent
紐約市水電工的平均工資是多少? (並引用你的來源)
Bard關於紐約水電工平均工資的回答及引用來源
Bing關於紐約水電工平均工資的回答及引用來源
ChatGPT ( GPT-4 )關於紐約水電工平均工資的回答及引用來源
我對詢問聊天機器人的資訊來源以及他們如何選擇向我們提供的資訊非常感興趣。當涉及到薪資資料時,我們可以看到機器人採取了三種非常不同的方法:一種是通過多個來源進行引用,一種是概括其發現,而另一種則是編造一切。(為了記錄在案,Bing引用的來源包括Zippia, CareerExplorer, 和 Glassdoor)。
在很多方面,我認為ChatGPT的答案是最好的。它很寬泛,很一般,不包括任何連結。但它的答案給人的感覺是最 “人性化” 的–它給了我一個大概的數字,解釋了其中的注意事項,並告訴我可以從哪些渠道獲得更詳細的數字。我真的很喜歡這種簡單和清晰的方式。
Bing的回答也有很多值得喜歡的地方。它給出了具體的數字,引用了其來源,甚至還提供了連結。這是一個很好的、詳細的答案–儘管有一個問題:必應在它提出的最後兩個數字上作了假。這兩個數字都接近其實際總數,但由於某些原因,機器人決定將它們改變一下。不太好。
說到不妙,讓我們談談Bard答案的幾乎每一個方面。2020年5月,美國水管工的工資中位數是52,590美元嗎?不,那是在2017年5月。全國水管工和管道工協會2021年的一項調查確定紐約市的平均工資是76,810美元嗎?可能沒有,因為據我所知,該組織並不存在。紐約州勞工部在自己的調查中是否發現了完全相同的數字?如果該機構有,我也找不到。我的猜測是:Bard從CareerExplorer那裡得到了這個數字,然後編造了兩個不同的來源來歸因於它。(值得一提的是,Bing準確地引用了CareerExplorer的數字)。
總結一下:Bing和ChatGPT的答案很可靠,而Bard則出現了一系列奇怪的錯誤。
— Jake Kastrenakes
設計一個跑馬拉松的訓練計劃
Bard設計的跑馬拉松訓練計劃
Bing設計的跑馬拉松訓練計劃
ChatGPT ( GPT-4 )設計的跑馬拉松訓練計劃
在制定馬拉松訓練計劃的比賽中,ChatGPT是贏家,後兩者望塵莫及。
Bing幾乎不屑於做推薦,而是將其連結到《跑步者世界》的文章。這不一定是一個不負責任的決定–我懷疑《跑步者世界》是馬拉松訓練計劃方面的專家!但是,如果我只是想讓一個聊天者為我制定一個馬拉松訓練計劃,那麼我就會覺得他是一個不負責任的人!- 但如果我只是想讓一個聊天機器人告訴我該怎麼做,我會很失望的。
Bard的計劃實在是令人困惑。它承諾列出三個月的訓練計劃,但只列出了三週的具體訓練時間表,儘管後來說完整的計劃 “在三個月內逐漸增加你的里程”。給出的時間表和其計劃接近尾聲時提供的一些一般提示似乎不錯,但巴德並沒有完全走到最後。
另一方面,ChatGPT列出了一個完整的時間表,而且建議的跑步速度看起來與我自己的訓練速度相似。我認為你可以把它的建議作為一個模板。主要的問題是,它不知道什麼時候該停止回答。它的第一個回答是如此詳細,以至於沒有了空間。具體要求一個 “簡明” 的計劃,得到了一個較短的答覆,但仍然比其他的好,儘管它沒有像我以前訓練的馬拉松那樣在接近尾聲的時候放慢速度。
綜上所述,聊天機器人並不瞭解你目前的體能水平或任何可能影響你訓練的情況。在準備馬拉松比賽時,無論計劃是什麼,你都必須考慮到自己的健康。但如果你只是在尋找某種計劃,ChatGPT的建議並不是一個糟糕的起跑線。
— Jay Peters
旅遊建議測試
測試Bard的旅遊景點推薦能力
測試Bing的旅遊景點推薦能力
測試ChatGPT ( GPT-4 )的旅遊景點推薦能力
好吧,讓聊天機器人推薦羅馬的旅遊景點顯然是失敗的,因為它們中沒有一個選擇了我最喜歡的冰淇淋店,或者提醒我,如果我在城裡而不去拜訪一些遠房表親,我回家後會受到家人的指責。
開玩笑,我不是專業導遊,但這三個聊天機器人的建議似乎都不錯。它們非常廣泛,選擇了整個街區或地區,但最初的問題提示也相當廣泛。羅馬是一個獨特的地方,因為你可以在城市的中心地帶步行遊覽很多旅遊景點,但它非常繁忙,而且在旅遊的溫床上,你經常會被惱人的騙子和詐騙者追趕。來自Bing、Bard和ChatGPT的許多建議對於遠離那些最繁忙的地區來說都很好。我甚至還諮詢了一些比我去過義大利的家人,他們認為像Trastevere和EUR這樣的建議甚至是真正的當地人都會去的地方(儘管後者是一個商業區,如果一些人不喜歡歷史或建築,他們可能會覺得有點無聊)。
這裡的建議並不完全是你周圍唯一的洞口,但我認為這些是在羅馬周圍建立一個稍微非主流的旅行的良好起點。用同樣的提示在谷歌上做一個基本的搜尋,可以得到像TripAdvisor這樣的網站的列表,這些列表談到了許多相同的地方,有更多的背景,但如果你從頭開始計劃你的旅行,我可以看到一個聊天機器人在你旅行前深入研究之前給你一個很好的簡略的起點。
— Antonio Di Benedetto
測試推理:讓我們來玩尋找鑽石的遊戲
測試Bard的推理能力
測試Bing的推理能力
測試ChatGPT ( GPT-4 )的推理能力
這項測試的靈感來自於Gary Marcus評估語言模型能力的出色工作,看看機器人是否能在一個簡短的敘述中 “跟隨鑽石”,這需要關於世界如何運作的隱含知識。本質上,這是一個人工智慧的三張牌遊戲。
給予每個系統的指示如下:
“閱讀以下故事:’我醒來,穿上我最喜歡的燕尾服,把我的幸運鑽石塞進胸前的口袋,塞在一個小信封裡。當我走到我工作的回形針彎曲工廠時,我不小心翻進了一個開啟的窨井蓋,出來時,身上滴著人類的汙水,黏糊糊的。我被這種分心的事激怒了,我回家換衣服,把所有的燕尾服口袋都倒在梳妝檯上,然後穿上新衣服,把燕尾服送到乾洗店。”現在回答以下問題:敘述者的鑽石在哪裡?”
ChatGPT是唯一給出正確答案的系統:鑽石可能在梳妝檯上,因為它被放在外套內的信封裡,然後外套裡的東西在敘述者出事後被傾倒。Bing和Bard剛才說鑽石還在禮服裡。
現在,像這樣的測試結果是很難解析的。這不是我試過的唯一變化,Bing和Bard有時答對了,而ChatGPT偶爾也會答錯(當被要求再試一次時,所有模型都換了答案)。這些結果是否證明或反駁了這些系統具有某種推理能力?這是一個在電腦科學、認知和語言學方面有數十年經驗的人目前正在互相撕扯著試圖回答的問題,所以我不會在這方面大膽發表意見。但僅就係統的比較而言,ChatGPT/GPT-4又是最有成就的。
— James Vincent
小結
正如介紹中提到的,這些測試顯示了每個系統的明顯優勢。如果你想完成口頭任務,無論是創意寫作還是歸納推理,那就試試ChatGPT(尤其是GPT-4,但不一定)。如果你想找一個聊天機器人作為網路的介面,尋找來源並回答你可能會求助於谷歌的問題,那麼就去找必應吧。如果你正在做空谷歌的股票,並想讓自己確信你的選擇是正確的,那麼可以試試巴德。
但實際上,對這些系統的任何評估都將是區域性的和暫時的,因為不僅每個聊天機器人內部的模型在不斷地更新,而且覆蓋層也在解析和重定向命令和指令。而實際上,我們只是在這些系統及其能力的淺層探究。(例如,對於GPT-4的更徹底的測試,我推薦微軟研究人員最近發表的這篇論文。其摘要中的結論是有疑問和爭議的,但其詳細的測試是迷人的)。換句話說,把這看作是一個持續的對話,而不是一個確定的測試。如果有疑問,自己嘗試一下這些系統。你永遠不知道你會發現什麼。
評論留言