谷歌一直在悄悄地改進 Bard,每隔幾周就會新增新功能,使其功能與 ChatGPT 看齊。現在,該公司又為 Bard 新增了上傳圖片的功能,為使用者帶來除文字外更廣泛的體驗。毫無疑問,谷歌 Bard 仍然是一個純文字的大型語言模型。不過,這家搜尋巨頭已經整合了 Google Lens、反向圖片搜尋和一些 VQA 系統(視覺問題解答),使 Bard 感覺像是一個多模態模型。儘管如此,Bard 目前的視覺能力確實有些出人意料,我們在下文中對其進行了測試,以瞭解其能力。下面,讓我們來看看 Google Bard 中一些很酷的圖片上傳示例。
- 從影象中提取文字
- 提取格式不變的表格
- 使用模型為網站/應用程式生成程式碼
- Google Bard 可以解釋圖片
- 從圖片中獲取營養資訊
- 改進食品食譜
- 解決數學問題
- 解釋備忘錄和笑話
- 將方程轉譯成 LaTeX
- 上傳醫療報告並提問
1. 從影象中提取文字
Bard 影象處理功能的最大優點是,現在只需點選 (+) 按鈕就能上傳影象。然後,它可以快速抓取上傳內容中的文字。然後,Google Bard 就會自動執行 OCR 識別,並且準確無誤。儘管如此,儘管 Bard 支援一長串語言,但目前 OCR 功能僅適用於英語。我嘗試了多種國際和地區語言,但都無法從掃描影象中提取文字。不過,對於從影象中快速提取文字,Bard 還是很有幫助的。
2. 提取格式不變的表格
當我們需要從掃描的影象或文件中提取表格時,我們都會很費勁。不過,Google Bard 可以毫不費力地提取出格式完好的表格。事實上,你還可以將表格匯出到 Google Sheets,然後做進一步的編輯或資料處理。這有多酷?話雖如此,目前 Bard 還經常出現幻覺,在某些情況下,它會在單元格中填入錯誤的資料,因此在匯出前一定要進行驗證。
3. 使用模型為網站/應用程式生成程式碼
為了展示 GPT-4 的多模態功能,2023 年 3 月,OpenAI 演示了其模型如何理解潦草的紙條,並迅速從一張紙上建立出網站的模擬圖。雖然多模態功能尚未應用於 GPT-4,但谷歌 Bard 能夠生成與模擬相匹配的程式碼。請記住,Bard 並非多模態模型,而是通過 Google Lens 進行影象分割來理解影象。儘管如此,Bard 的結果還是讓我們大吃一驚。
我上傳了 Facebook 登陸頁面的截圖,它很快就用 HTML 和 CSS 生成了看起來有些相似的程式碼。我還上傳了一張我在紙上畫的簡單網站的圖片,Google Bard 也能很好地還原它。此外,你還可以使用類似的方法來重現智慧手機應用程式和其他網站的使用者介面。
4. Google Bard 可以解釋圖片
Google Bard 擅長解釋影象並總結其中的內容。你可以上傳晦澀難懂的圖片,它也能快速生成可靠的資訊。我上傳了一張低質量的生物機制圖片,它就正確地將其識別為細胞有絲分裂。它還一步一步地解釋了這一過程。
在另一個例子中,我上傳了一張圖表,它能正確理解影象並解釋資料。它甚至還建立了一個資料點表格,這樣我就可以在 Google Sheets 中進行處理。特別是對於學生來說,Bard 可以幫助他們理解科學概念和其他主題。您只需上傳一張圖片,然後向 Bard 詢問即可。
5. 從圖片中獲取營養資訊
利用 Bard 的影象處理功能,你可以獲得食物的營養價值。只需上傳盤中食物的圖片,它就能在幾秒鐘內計算出總卡路里。這對於節食的人來說大有幫助。
在我的測試中,它無法計算食物的份量,但提供了一些例子,讓你可以自己計算總卡路里攝入量。看來,谷歌正在利用影象分割技術對食品進行分類,並提供營養資訊。
6. 改進食品食譜
另一個絕佳的使用案例是新增生鮮食品的圖片,然後讓 Google Bard 想出各種食品食譜。您還可以新增冰箱中食品的圖片,它就會毫不費力地為您建立個性化食譜。此外,你還可以向 Bard 詢問世界各地的特色美食。如果你正在減肥,還可以讓谷歌 Bard 為你製作無脂肪、低熱量的飽腹食譜。
7. 解決數學問題
您還可以使用 Google Bard 解決數學問題。你可以將數學問題的圖片上傳到 Bard,它就會嘗試為你解題。在我的測試中,Bard 的方法是正確的,但由於符號問題,它只能得出錯誤的答案。我認為需要對其視覺系統進行更新,使 Bard 更適合處理數學符號和問題。
8. 解釋備忘錄和笑話
谷歌 Bard 還能解釋流行語和笑話。你可以上傳有趣的流行語和漫畫圖片,並詢問 Bard 這些圖片有趣在哪裡, Bard 會給出自己的解釋。我上傳了 OpenAI 在 GPT-4 釋出會上展示的同一張圖片, Bard 正確地理解了圖片背後的搞笑荒誕。
還有一次,我把《紐約客漫畫》中的一張圖片上傳到 Google Bard,要求它解釋這個笑話。然而,這次它只是簡單地解釋了場景,卻說不出這張圖片為什麼好笑。它完全忽略了工作場所常用的電子郵件短語。我建議你自己試試 Google Bard,看看它是否足夠聰明,能夠理解機智和幽默。
9. 將方程轉譯成 LaTeX
許多人認為用 LaTeX 書寫困難重重,而更願意使用文書處理器,這已不是什麼祕密。然而,對於科學研究論文和學術論文寫作來說,LaTeX 是新增複雜方程和進行高質量排版所必需的。在這種情況下,Google Bard 可以派上用場。你可以新增方程式的圖片,而 Bard 可以將它們轉譯成 LaTeX 程式碼。很神奇吧?那就趕緊把方程轉譯成 LaTeX 程式碼吧。
10. 上傳醫療報告並提問
最後,您可以上傳醫療報告的圖片並將其掃描到 Google Bard。然後,您就可以根據它們提出醫學問題。Twitter 上的一些醫生表示,Bard 在鑑別診斷方面很有優勢。它還能幫助使用者瞭解自己的健康狀況並理解醫療報告。
儘管如此,請記住谷歌 Bard 是在名為 PaLM 2 的通用 LLM 上執行的。這家搜尋巨頭已經開發了一個獨立的醫療領域 Med-PaLM 2 模型,該模型相當準確和先進,但目前還未向普通使用者開放。因此,我建議使用者不要使用 Bard 進行任何形式的自我診斷。強烈建議諮詢醫生。最後,如果你將個人醫療報告上傳到 Bard ,請務必刪除 Bard 聊天記錄,以保護你的隱私。
評論留言