OpenAI宣佈建立GPT-4,這是一個大型多模態模型,能夠接受影象和文字輸入,同時發出文字輸出。該模型在各種專業和學術基準上表現出人類水平的效能,儘管它在許多現實世界的場景中的能力不如人類。例如,GPT-4的模擬律師考試分數約為應試者的前10%,而GPT-3.5的分數則約為後10%。OpenAI花了6個月時間,利用從他們的對抗性測試專案和其他來源獲得的經驗,反覆調整GPT-4。因此,該模型在事實性、可引導性和保持在護欄內等方面的表現比以前的版本更好,但仍有改進的空間。
GPT-3.5和GPT-4之間的差異在閒談中可能是微妙的,但在處理複雜的任務時就變得很明顯。GPT-4在可靠性、創造性和處理細微指令的能力方面優於GPT-3.5。各種基準被用來測試兩個模型之間的差異,包括最初為人類準備的模擬考試。所用的考試是最新的公開考試或明確為此目的而購買的2022-2023年練習考試。沒有為這些考試做專門的訓練,儘管模型之前在訓練中遇到了一小部分問題。獲得的結果被認為是有代表性的,可以在技術報告中找到。
一些比較的結果
Source : https://openai.com/research/gpt-4
Source : https://openai.com/research/gpt-4
視覺輸入
🔥推薦閱讀-利用TensorLeap進行有效的遷移學習:克服領域差距
GPT-4可以處理文字和影象輸入,允許使用者指定任何語言或視覺任務。它可以根據包括各種領域的文字和影象的輸入,如帶有文字的檔案、照片、圖表或螢幕截圖,生成自然語言和程式碼等文字輸出。GPT-4在純文字和混合輸入上顯示類似的能力。它還可以用為純文字語言模型開發的技術來加強,如少數幾個鏡頭和思維鏈的提示。然而,影象輸入功能仍處於研究階段,沒有公開提供。
侷限性
儘管GPT-4具有令人印象深刻的能力,但它與它的前輩們有著類似的侷限性。它的主要侷限性之一是缺乏完全的可靠性,因為它仍然傾向於產生不正確的資訊和推理錯誤,通常被稱為 “幻覺”。因此,在利用語言模型輸出時,尤其是在高風險的情況下,謹慎行事是至關重要的。為了解決這個問題,應該根據具體的使用情況採取不同的方法,如人工審查、以額外的背景為基礎,或完全避免高風險的使用。
儘管它仍然面臨著可靠性的挑戰,但與以前的模型相比,GPT-4在減少幻覺方面顯示出明顯的改進。內部對抗性事實評估表明,GPT-4的得分比最新的GPT-3.5模型高40%,比以前的迭代有很大的改進。
語言模型GPT-4可能在其輸出中表現出偏差,儘管努力減少偏差。該模型的知識僅限於2021年9月之前的事件,需要從經驗中學習。它有時會犯推理錯誤,過於輕信他人,並在困難的問題上失敗,與人類類似。GPT-4可能會自信地做出不正確的預測,通過目前的後期訓練過程,它的校驗率會降低。然而,目前正在努力確保該模型具有合理的預設行為,反映出廣泛的使用者價值,並可在一定範圍內根據公眾的意見進行定製。
評論留言