OpenAI GPT-4即將釋出。它是多模態的,這意味著如果谷歌不擔心,那麼現在就應該開始了。
微軟德國技術長安德烈亞斯-布勞恩證實,GPT-4將在2023年3月9日的一週內到來,它將是多模式的。多模態人工智慧意味著它將能夠在多種輸入中運作,如視訊、影象和聲音。
多模態大型語言模型
該公告的最大收穫是,GPT-4是多模態的。
模態是指(在這種情況下)一個大型語言模型所處理的輸入型別。
多模態可以包括文字、語音、影象和視訊。
GPT-3和GPT-3.5只在一種模式下執行,即文字。
根據德國的新聞報道,GPT-4可能至少能在四種模式下執行,即影象、聲音(聽覺)、文字和視訊。
引述微軟德國技術長Andreas Braun博士的話:
我們將在下週推出GPT-4,在那裡我們將有多模態模型,將提供完全不同的可能性 – 例如視訊……
報告缺乏對GPT-4的具體說明,因此不清楚所分享的多模態是專門針對GPT-4的還是一般的。
微軟業務戰略總監Holger Kenn解釋了多模態,但報告不清楚他是指GPT-4多模態還是一般的多模態。
我相信他對多模態的提及是針對GPT-4的。
該新聞報道分享了:
肯恩解釋了多模態人工智慧的意義,它不僅可以將文字相應地翻譯成影象,還可以翻譯成音樂和視訊。
另一個有趣的事實是,微軟正在研究 “信心指標”,以便用事實來支撐他們的人工智慧,使其更加可靠。
微軟Kosmos-1
在美國顯然沒有得到充分報道的事情是,微軟在2023年3月初發布了一個名為Kosmos-1的多模態語言模型。
根據德國新聞網站Heise.de的報道:
…..該團隊將預先訓練好的模型進行了各種測試,在影象分類、回答有關影象內容的問題、影象的自動標記、光學文字識別和語音生成任務方面取得了良好的結果。
…視覺推理,即在不使用語言作為中間步驟的情況下對影象得出結論,似乎是這裡的一個關鍵…
Kosmos-1是一個多模態模態,它整合了文字和影象的模態。
GPT-4比Kosmos-1更進一步,因為它增加了第三種模態,即視訊,而且似乎還包括了聲音模態。
跨越多種語言的工作
GPT-4似乎可以在所有語言中工作。它被描述為能夠接收德語的問題,並以義大利語回答。
這是個有點奇怪的例子,因為,誰會用德語問問題而想收到義大利語的答案呢?
這就是被證實的情況:
……該技術已經發展到基本上 “適用於所有語言”。你可以用德語問一個問題,得到義大利語的答案。
通過多模態,微軟(-OpenAI)將’使模型變得全面'”。
我相信這一突破的重點是,該模型超越了語言,具有跨越不同語言的知識能力。因此,如果答案是義大利語,它就會知道,並且能夠用提問的語言提供答案。
這將使它類似於谷歌的多模態人工智慧的目標,即MUM。據說MUM能夠用英語提供答案,而這些資料只存在於另一種語言中,如日語。
GPT-4應用
目前還沒有宣佈GPT-4將出現在哪裡。但Azure-OpenAI被特別提到。
谷歌正在努力追趕微軟,將一項競爭性技術整合到自己的搜尋引擎中。這一發展進一步加劇了人們的看法,即谷歌在面向消費者的人工智慧方面正在落後,缺乏領導力。
谷歌已經在多個產品中整合了人工智慧,如谷歌鏡頭、谷歌地圖和消費者與谷歌互動的其他領域。這種方式是將人工智慧作為一種輔助技術來利用,幫助人們完成小任務。
微軟實施的方式更加明顯,因此,它吸引了所有的注意力,並加強了谷歌的形象,使之成為耀武揚威和奮力追趕的物件。
德國報道原文:GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany
評論留言