如何在 Gemini 1.5 Pro 上處理音訊檔案

在拉斯維加斯舉行的 Google Cloud Next 2024 大會上，Google 宣佈將向所有使用者全面開放 Gemini 1.5 Pro。備受期待的 Gemini1.5 Pro 終於進入了公開預覽階段，並提供了100 萬個上下文視窗，使用者無需再註冊等待即可使用 Gemini 1.5 Pro。

我試著用新的谷歌賬戶訪問 Gemini 1.5 Pro 模型，結果發現該模型隨時可用，無需等待。而且這一切都是免費的。

訪問 Gemini 1.5 Pro 模型

但這並不意味著您可以在 Gemini 入口網站上開始使用 Gemini 1.5 Pro 模型。目前，您必須前往aistudio.google.com（訪問）才能訪問該模型。經過幾個月的公開預覽後，該模型將在 Gemini 入口網站上提供。您可能需要訂閱 Gemini Advanced 才能使用該模型。

請記住，Gemini 1.5 Pro 模型是基於 MoE 架構的中級模型，但它能輕鬆擊敗最大的 Gemini 1.0 Ultra 模型。在與 GPT-4 模型的比較中，Gemini 1.5 Pro 在多項測試中表現出了不凡的能力。當 Gemini 1.5 Pro 在 Gemini 入口網站上亮相時，預計它的效能將優於 GPT-4 和 Claude 3 的 Opus 型號。

除此之外，Gemini 1.5 Pro 現在還能處理音訊檔案。您可以上傳會議或視訊的音訊檔案，而模型可以收聽上傳的檔案，無需手動生成文字記錄。這對那些希望從音訊會議或討論中快速找到結構化資訊的人來說大有裨益。

Gemini 1.5 Pro已經可以處理視訊和影象，現在還支援音訊檔案，這使它成為一個強大的多模態模型，上下文長度可達 100 萬個標記。我們測試了 Gemini 1.5 Pro 模型的音訊處理能力。具體操作如下：