在谷歌的双子座 AI(Gemini AI)发布之后,谷歌又发布了其双子座模型的 API 访问权限。目前,该公司正在提供 Gemini Pro 的 API 访问权限,包括纯文本模型和文本加视觉模型。这是一次有趣的发布,因为到目前为止,谷歌还没有为 Bard 添加视觉功能,因为它运行的是纯文本模型。有了这个 API 密钥,你终于可以在本地电脑上测试 Gemini 的多模态功能了。下面我们就来学习如何在本指南中访问和使用 Gemini API。
注:谷歌双子座 API 密钥目前对文本和视觉模型都是免费的。在明年年初全面可用之前,它都是免费的。因此,你可以每分钟发送多达 60 个请求,而无需设置 Google 云计费或产生任何费用。
在电脑上设置 Python 和 Pip
前往我们的指南,在 PC 或 Mac 上安装 Python 和 Pip。您需要安装 Python 3.9 或更高版本。
如果你的电脑是 Linux 系统,可以按照我们的教程在 Ubuntu 或其他发行版上安装 Python 和 Pip。
您可以在终端运行以下命令来验证 Python 和 Pip 是否安装在您的计算机上。它将返回版本号。
python -V pip -V
安装成功后,运行下面的命令安装谷歌的生成式人工智能依赖项。
pip install -q -U google-generativeai
如何获取 Gemini Pro API 密钥
接下来,前往 makersuite.google.com/app/apikey(访问)并使用 Google 账户登录。
在 API 密钥下,点击 “Create API key in new project” 按钮。
复制 API 密钥并保存。不要公开发布或共享 API 密钥。
如何使用 Gemini Pro API 密钥(纯文本模式)
与 OpenAI 类似,谷歌也将 Gemini API 密钥直接用于开发和测试目的。我将代码编写得相当简单,以便普通用户测试和使用。在本例中,我将演示如何通过 API 密钥使用 Gemini Pro 文本模型。
首先,启动你选择的代码编辑器。如果你是初学者,只需安装 Notepad++。对于高级用户,Visual Studio Code 是一个很好的工具。
然后,复制下面的代码并粘贴到代码编辑器中。
import google.generativeai as genai genai.configure(api_key='PASTE YOUR API KEY HERE') model = genai.GenerativeModel('gemini-pro') response = model.generate_content("What is the meaning of life?") print(response.text)
在代码编辑器中,粘贴你的 Gemini API 密钥。如您所见,我们定义了 “gemini-pro” 模型,这是一个纯文本模型。此外,我们还添加了一个可以提问的查询。
现在,保存代码并为文件命名。确保在最后添加 .py
。我将文件命名为 gemini.py
,并保存在桌面上。
接下来,打开终端,运行以下命令移动到桌面。
cd Desktop
进入桌面终端后,只需运行以下命令即可使用 Python 执行 gemini.py
文件。
python gemini.py
现在,它将回答您在 gemini.py
文件中设置的问题。
你可以在代码编辑器中修改问题,保存后再次运行 gemini.py
文件,就能在终端中得到新的回复。这就是使用 Google Gemini API 密钥访问纯文本 Gemini Pro 模型的方法。
如何使用 Gemini Pro API 密钥(文本和视觉模型)
在本例中,我将展示如何与 Gemini Pro 多模态模型进行交互。它还没有在 Google Bard 上上线,但通过 API,您可以立即访问它。值得庆幸的是,这个过程同样非常简单和无缝。
在代码编辑器中打开一个新文件,然后粘贴下面的代码。
import google.generativeai as genai import PIL.Image img = PIL.Image.open('image.jpg') genai.configure(api_key='PASTE YOUR API KEY HERE') model = genai.GenerativeModel('gemini-pro-vision') response = model.generate_content(["what is the total calorie count?", img]) print(response.text)
确保粘贴您的 Gemini API 密钥。在这里,我们使用的是 gemini-pro-vision
模型,这是一种文本和视觉模型。
现在,将文件保存在桌面上,并在文件名后添加 .py
。我在这里将其命名为 geminiv.py
。
在代码的第三行,正如你所看到的,我将 AI 指向保存在我的桌面上的 image.jpg 文件,文件名完全相同。无论你要处理什么图像,都要确保它保存在与 geminiv.py
文件相同的位置,并且文件名相同,扩展名正确。你可以传入不超过 4MB 的本地 JPG 和 PNG 文件。
在第六行代码中,您可以提出与图片相关的问题。由于我输入的是与食物有关的图片,因此我要求 Gemini Pro 计算总卡路里数。
现在是在终端运行代码的时候了。只需移动到桌面(就我而言),然后逐一运行下面的命令。如果有任何改动,请确保保存文件。
cd Desktop python geminiv.py
Gemini Pro 视觉模型会直接回答问题。您可以进一步提问,要求人工智能解释原因。
您也可以输入不同的图片,但要确保与图片文件名一致,更改代码中的问题,并再次运行 geminiv.py
文件以获得新的响应。
推荐阅读:如何使用 ChatGPT API 通过自定义知识库训练AI聊天机器人
如何以聊天格式使用 Gemini Pro API 密钥
多亏了 unconv (GitHub) 的简洁代码,你可以在终端窗口中使用 Gemini AI API 密钥与 Gemini Pro 模型聊天。这样,你就不必更改代码中的问题,也不必重新运行 Python 文件来获得新的输出结果。您可以在终端窗口中继续聊天。
最重要的是,Google 原生实现了聊天历史记录,因此您无需手动添加回复,也无需在数组或列表中管理聊天历史记录。只需一个简单的函数,Google 就能存储聊天会话中的所有对话历史记录。具体操作如下:
打开代码编辑器,粘贴下面的代码。
import google.generativeai as genai genai.configure(api_key='PASTE YOUR API KEY HERE') model = genai.GenerativeModel('gemini-pro') chat = model.start_chat() while True: message = input("You: ") response = chat.send_message(message) print("Gemini: " + response.text)
像往常一样,粘贴与上述部分类似的 API 密钥。
现在,将文件保存到桌面或首选位置。确保在最后添加 .py
。我将其命名为 geminichat.py 文件。
现在,启动终端并移动到桌面。然后,运行 geminichat.py
文件。
cd Desktop python geminichat.py
现在你可以毫不费力地继续对话,它还会记住聊天记录。因此,这是使用 Google Gemini API 密钥的另一个好方法。
以上就是几个例子,你可以尝试通过 API 来了解谷歌 Gemini 的功能。我很高兴谷歌将其视觉模型提供给爱好者和开发者试用,并将其与 OpenAI 的 DALL-E 3 和 ChatGPT 进行比较。虽然 Gemini Pro 视觉模型比不上 GPT-4V 模型,但也相当不错。我们正在等待与 GPT-4 型号相当的 Gemini Ultra 的推出。
除此之外,Gemini Pro API 的响应与 Google Bard 感觉有些不同,后者也是由 Gemini Pro 的微调版驱动的。Bard 的响应似乎略显枯燥乏味,但 Gemini Pro 的 API 响应感觉更生动、更有特色。
我们将跟踪这一领域的所有变化,敬请关注更多与 Gemini AI 相关的内容。同时,请自行查看 Google Gemini API。
评论留言