如何在 Gemini 1.5 Pro 上處理音訊檔案

如何在 Gemini 1.5 Pro 上處理音訊檔案

在拉斯維加斯舉行的 Google Cloud Next 2024 大會上,Google 宣佈將向所有使用者全面開放 Gemini 1.5 Pro。備受期待的 Gemini1.5 Pro 終於進入了公開預覽階段,並提供了100 萬個上下文視窗,使用者無需再註冊等待即可使用 Gemini 1.5 Pro

我試著用新的谷歌賬戶訪問 Gemini 1.5 Pro 模型,結果發現該模型隨時可用,無需等待。而且這一切都是免費的。

訪問 Gemini 1.5 Pro 模型

但這並不意味著您可以在 Gemini 入口網站上開始使用 Gemini 1.5 Pro 模型。目前,您必須前往aistudio.google.com(訪問)才能訪問該模型。經過幾個月的公開預覽後,該模型將在 Gemini 入口網站上提供。您可能需要訂閱 Gemini Advanced 才能使用該模型。

請記住,Gemini 1.5 Pro 模型是基於 MoE 架構的中級模型,但它能輕鬆擊敗最大的 Gemini 1.0 Ultra 模型。在與 GPT-4 模型的比較中,Gemini 1.5 Pro 在多項測試中表現出了不凡的能力。當 Gemini 1.5 Pro 在 Gemini 入口網站上亮相時,預計它的效能將優於 GPT-4 和 Claude 3 的 Opus 型號。

除此之外,Gemini 1.5 Pro 現在還能處理音訊檔案。您可以上傳會議或視訊的音訊檔案,而模型可以收聽上傳的檔案,無需手動生成文字記錄。這對那些希望從音訊會議或討論中快速找到結構化資訊的人來說大有裨益。

Gemini 1.5 Pro已經可以處理視訊和影象,現在還支援音訊檔案,這使它成為一個強大的多模態模型,上下文長度可達 100 萬個標記。我們測試了 Gemini 1.5 Pro 模型的音訊處理能力。具體操作如下:

  • 在瀏覽器中訪問 aistudio.google.com
  • 然後,確保在下拉選單中選擇 “Gemini 1.5 Pro” 模型。

選擇 "Gemini 1.5 Pro" 模型

  • 然後,點選頂行的 “Audio” 選單,上傳音訊檔案。它支援這些音訊檔案格式: FLAC、MIDI、MP3、M4A、OPUS、OGG、OGA、WAV 和 MID。

上傳音訊檔案

  • 它將處理音訊檔案並消耗 tokens
  • 現在,開始提問吧,Gemini 1.5 Pro 會從音訊中找到資訊並作出相應的迴應。

基於音訊提問題

  • 最棒的是,它能以結構化的格式生成指令碼文字,並標註不同的發言人。而且完全不會產生幻覺。

生成指令碼文字

這就是在 Gemini 1.5 Pro 上上傳和處理音訊檔案的方法。這確實是谷歌 DeepMind 團隊的一個強大模型,我很高興它現在可以免費向公眾開放。快來試試吧,並在下面的評論區告訴我們你的想法。

評論留言