如何在 Gemini 1.5 Pro 上处理音频文件

在拉斯维加斯举行的 Google Cloud Next 2024 大会上，Google 宣布将向所有用户全面开放 Gemini 1.5 Pro。备受期待的 Gemini1.5 Pro 终于进入了公开预览阶段，并提供了100 万个上下文窗口，用户无需再注册等待即可使用 Gemini 1.5 Pro。

我试着用新的谷歌账户访问 Gemini 1.5 Pro 模型，结果发现该模型随时可用，无需等待。而且这一切都是免费的。

访问 Gemini 1.5 Pro 模型

但这并不意味着您可以在 Gemini 门户网站上开始使用 Gemini 1.5 Pro 模型。目前，您必须前往aistudio.google.com（访问）才能访问该模型。经过几个月的公开预览后，该模型将在 Gemini 门户网站上提供。您可能需要订阅 Gemini Advanced 才能使用该模型。

请记住，Gemini 1.5 Pro 模型是基于 MoE 架构的中级模型，但它能轻松击败最大的 Gemini 1.0 Ultra 模型。在与 GPT-4 模型的比较中，Gemini 1.5 Pro 在多项测试中表现出了不凡的能力。当 Gemini 1.5 Pro 在 Gemini 门户网站上亮相时，预计它的性能将优于 GPT-4 和 Claude 3 的 Opus 型号。

除此之外，Gemini 1.5 Pro 现在还能处理音频文件。您可以上传会议或视频的音频文件，而模型可以收听上传的文件，无需手动生成文字记录。这对那些希望从音频会议或讨论中快速找到结构化信息的人来说大有裨益。

Gemini 1.5 Pro已经可以处理视频和图像，现在还支持音频文件，这使它成为一个强大的多模态模型，上下文长度可达 100 万个标记。我们测试了 Gemini 1.5 Pro 模型的音频处理能力。具体操作如下：