這就是ChatGPT,以及為什麼它可能是現代搜尋引擎以來最重要的工具。
OpenAI推出了一種名為ChatGPT的長篇回答問題的人工智慧,以對話方式回答複雜問題。
這是一項革命性的技術,因為它經過訓練,可以學習人類提問時的意思。
許多使用者對它提供人類質量的回答的能力感到震驚,激發了人們的感覺,即它最終可能有能力顛覆人類與計算機的互動方式,並改變資訊檢索的方式。
什麼是ChatGPT?
ChatGPT是OpenAI基於GPT-3.5開發的一個大型語言模型聊天機器人。它具有顯著的能力,能夠以對話的形式進行互動,並提供能夠顯得出人意料的迴應。
大型語言模型執行的任務是預測一系列單詞中的下一個單詞。
帶有人類反饋的強化學習(RLHF)是一個額外的訓練層,它使用人類反饋來幫助ChatGPT學習遵循指令的能力,併產生令人類滿意的反應。
誰建立了ChatGPT?
ChatGPT是由位於舊金山的人工智慧公司OpenAI建立的。OpenAI Inc.是營利性的OpenAI LP的非營利性母公司。
OpenAI因其著名的DALL-E而聞名,這是一個深度學習模型,可以從稱為提示的文字指令中生成影象。
執行長是薩姆-奧特曼,他曾是Y Combinator的總裁。
微軟是一個合作伙伴和投資者,金額為10億美元。他們共同開發了Azure人工智慧平臺。
大型語言模型
ChatGPT是一個大型語言模型(LLM)。大型語言模型(LLM)是用大量的資料進行訓練,以準確預測句子中的下一個詞。
人們發現,增加資料量可以提高語言模型的能力。
根據斯坦福大學的說法:
GPT-3有1750億個引數,在570千兆位元組的文字上進行訓練。作為比較,其前身GPT-2的引數為15億,小了100多倍。
這種規模的增加極大地改變了模型的行為–GPT-3能夠執行它沒有明確訓練過的任務,如將句子從英語翻譯成法語,而訓練的例子很少甚至沒有。
這種行為在GPT-2中基本沒有。此外,對於某些任務,GPT-3優於那些被明確訓練來解決這些任務的模型,儘管在其他任務中它還不夠。
LLMs可以預測一個句子中一系列單詞的下一個單詞,以及下一個句子–有點像自動完成,但在一個令人費解的規模。
這種能力使他們能夠撰寫段落和整頁的內容。
但法律碩士的侷限性在於,他們並不總是能準確地理解人類想要什麼。
而這正是ChatGPT改進技術水平的地方,它採用了前面提到的帶人類反饋的強化學習(RLHF)訓練。
ChatGPT是如何被訓練的?
GPT-3.5在關於程式碼和網際網路資訊的大量資料上進行訓練,包括Reddit討論等來源,以幫助ChatGPT學習對話並達到人類的迴應風格。
ChatGPT還使用人類反饋進行訓練(這種技術被稱為人類反饋強化學習),這樣人工智慧就能學會人類在提出問題時的預期。以這種方式訓練LLM是革命性的,因為它超越了簡單地訓練LLM來預測下一個單詞。
2022年3月的一篇題為《通過人類反饋訓練語言模型以遵循指令》的研究論文解釋了為什麼這是一種突破性的方法:
這項工作的動機是,我們的目標是通過訓練大型語言模型來增加其積極影響,讓它們做一組特定人類希望它們做的事情。
預設情況下,語言模型優化下一個詞的預測目標,這只是我們希望這些模型做什麼的代理。
我們的結果表明,我們的技術有希望使語言模型更有幫助,更真實,更無害。
把語言模型做得更大並不意味著它們能更好地遵循使用者的意圖。
例如,大的語言模型可以產生不真實的、有毒的、或者根本對使用者沒有幫助的輸出。
換句話說,這些模型沒有與使用者保持一致。
建立ChatGPT的工程師聘請了承包商(稱為標籤人員)對GPT-3和新的InstructGPT(ChatGPT的一個 “兄弟姐妹模型”)這兩個系統的輸出進行評級。
基於這些評價,研究人員得出了以下結論:
與GPT-3的輸出相比,貼標者明顯喜歡InstructGPT的輸出。
InstructGPT模型在真實性方面比GPT-3有改進。
InstructGPT在有害內容方面比GPT-3有小的改善,但沒有偏見。
研究論文的結論是,InstructGPT的結果是積極的。儘管如此,它也指出,仍有改進的餘地。
總的來說,我們的結果表明,利用人類的偏好對大型語言模型進行微調,大大改善了它們在各種任務上的行為,儘管在提高它們的安全性和可靠性方面還有很多工作要做。
ChatGPT與簡單的聊天機器人不同的是,它經過專門訓練,能夠理解問題中的人類意圖,並提供有用的、真實的、無害的答案。
由於這種訓練,ChatGPT可能會質疑某些問題,並放棄問題中不合理的部分。
另一篇與ChatGPT有關的研究論文顯示了他們如何訓練人工智慧來預測人類的喜好。
研究人員注意到,用於評價自然語言處理人工智慧輸出的指標,導致機器在指標上得分很高,但與人類的預期不一致。
以下是研究人員對這個問題的解釋:
許多機器學習應用優化了簡單的指標,這些指標只是設計者意圖的粗略代理。這可能會導致一些問題,例如YouTube的推薦促進了點選誘餌。
因此,他們設計的解決方案是建立一個人工智慧,可以輸出優化到人類喜歡的答案。
為了做到這一點,他們使用人類對不同答案的比較資料集來訓練人工智慧,這樣機器就能更好地預測人類判斷的滿意答案。
該論文分享了通過總結Reddit帖子進行的訓練,並且還對總結新聞進行了測試。
2022年2月的研究論文名為《從人類反饋中學習總結》。
研究人員寫道:
在這項工作中,我們表明,通過訓練一個模型來優化人類的偏好,有可能顯著提高總結質量。
我們收集了一個大型的、高質量的人類摘要比較資料集,訓練一個模型來預測人類喜歡的摘要,並使用該模型作為獎勵函式,使用強化學習來微調摘要政策。
ChatGPT有哪些侷限性?
對有害內容反應的限制
ChatGPT是專門設計的,不會提供不正確或有害的答覆。因此,它將避免回答這些型別的問題。
答案的質量取決於指引的質量
ChatGPT的一個重要限制是,輸出的質量取決於輸入的質量。換句話說,專家指導(提示)會產生更好的答案。
答案並不總是正確的
另一個限制是,因為它被訓練成提供人類感覺正確的答案,所以答案可以欺騙人類,使其認為輸出是正確的。
許多使用者發現,ChatGPT可以提供不正確的答案,包括一些嚴重錯誤的答案。
編碼問答網站Stack Overflow的版主可能已經發現了人類感覺正確的答案的一個意外後果。
Stack Overflow充斥著由ChatGPT生成的使用者回答,這些回答看起來是正確的,但有很多是錯誤的答案。
成千上萬的答案讓志願者版主團隊應接不暇,促使管理員頒佈禁令,禁止任何使用者釋出由ChatGPT生成的答案。
大量的ChatGPT答案導致了一篇題為:臨時政策-ChatGPT被禁止了。
這是一項臨時政策,旨在減緩答案和其他用ChatGPT建立的內容的湧入。
…主要問題是,雖然ChatGPT產生的答案有很高的錯誤率,但它們通常 “看起來 “是 “可能 “是好的…
Stack Overflow版主對看起來正確的ChatGPT錯誤答案的經驗,是ChatGPT的製造商OpenAI所瞭解的,並在他們的新技術公告中提出警告。
OpenAI解釋ChatGPT的侷限性
OpenAI的公告提供了這樣的警告:
ChatGPT有時會寫出聽起來合理但不正確或無意義的答案。
修復這個問題是有難度的,因為。
(1) 在RL訓練期間,目前沒有真理的來源。
(2) 訓練模型使其更加謹慎,導致它拒絕回答它可以正確回答的問題;以及
(3)監督訓練會誤導模型,因為理想的答案取決於模型所知道的東西,而不是人類演示者所知道的東西。
使用ChatGPT是否免費?
目前在 “研究預覽” 期間,ChatGPT的使用是免費的。
該聊天機器人目前開放給使用者試用,並對回答進行反饋,以便人工智慧在回答問題時變得更好,並從錯誤中學習。
官方公告稱,OpenAI渴望收到關於錯誤的反饋。
雖然我們已經努力使模型拒絕不適當的請求,但它有時會對有害的指令作出反應或表現出有偏見的行為。
我們正在使用節制API來警告或阻止某些型別的不安全內容,但我們預計它暫時會有一些錯誤的否定和肯定。
我們渴望收集使用者的反饋,以幫助我們正在進行的工作,改善這個系統。
目前有一個競賽,獎品是500美元的ChatGPT積分,鼓勵公眾對反應進行評價。
我們鼓勵使用者通過使用者介面對有問題的模型輸出提供反饋,以及對外部內容過濾器的假陽性/陰性反饋,這也是介面的一部分。
我們特別感興趣的是關於在現實世界的非對抗性條件下可能發生的有害輸出的反饋,以及幫助我們發現和理解新的風險和可能的緩解措施的反饋。
你可以選擇參加ChatGPT反饋競賽3,有機會贏得高達500美元的API積分。
參賽者可以通過ChatGPT介面中連結的反饋表提交。
目前正在進行的比賽在北京時間2022年12月31日晚上11點59分結束。
語言模型將取代谷歌搜尋?
谷歌自己已經創造了一個人工智慧聊天機器人,它被稱為LaMDA。谷歌的聊天機器人的表現非常接近人類的對話,以至於谷歌的一位工程師聲稱LaMDA是有生命的。
鑑於這些大型語言模型可以回答如此多的問題,像OpenAI、谷歌或微軟這樣的公司有一天會用人工智慧聊天機器人取代傳統搜尋,這是否很牽強?
推特上的一些人已經在宣稱ChatGPT將成為下一個谷歌。
對於那些以搜尋營銷為生的人來說,問答式聊天機器人有朝一日可能取代谷歌的情景是令人恐懼的。
它已經在線上搜尋營銷社羣引發了討論,比如流行的Facebook SEOSignals實驗室,有人問搜尋是否會從搜尋引擎轉向聊天機器人。
在測試了ChatGPT之後,我不得不同意,對搜尋被聊天機器人取代的擔心並非毫無根據。
這項技術還有很長的路要走,但有可能設想出搜尋和聊天機器人混合的未來。
但目前ChatGPT的實現似乎是一個工具,在某些時候,需要購買信用額度才能使用。
可以使用ChatGPT幹什麼?
ChatGPT可以按照特定作者的風格編寫程式碼、詩歌、歌曲,甚至是短篇小說。
遵循指示的專業知識使ChatGPT從一個資訊源提升為一個可以被要求完成任務的工具。
這使得它對幾乎任何主題的論文寫作都很有用。
ChatGPT可以作為一個工具,為文章甚至整部小說生成大綱。
它將為幾乎所有可以用書面文字回答的任務提供答覆。
小結
如前所述,ChatGPT被設想為一個公眾最終需要付費才能使用的工具。
自ChatGPT向公眾開放以來的前五天內,已有超過一百萬使用者註冊使用。
評論留言