在谷歌的雙子座 AI(Gemini AI)釋出之後,谷歌又釋出了其雙子座模型的 API 訪問許可權。目前,該公司正在提供 Gemini Pro 的 API 訪問許可權,包括純文字模型和文字加視覺模型。這是一次有趣的釋出,因為到目前為止,谷歌還沒有為 Bard 新增視覺功能,因為它執行的是純文字模型。有了這個 API 金鑰,你終於可以在本地電腦上測試 Gemini 的多模態功能了。下面我們就來學習如何在本指南中訪問和使用 Gemini API。
注:谷歌雙子座 API 金鑰目前對文字和視覺模型都是免費的。在明年年初全面可用之前,它都是免費的。因此,你可以每分鐘傳送多達 60 個請求,而無需設定 Google 雲計費或產生任何費用。
在電腦上設定 Python 和 Pip
前往我們的指南,在 PC 或 Mac 上安裝 Python 和 Pip。您需要安裝 Python 3.9 或更高版本。
如果你的電腦是 Linux 系統,可以按照我們的教程在 Ubuntu 或其他發行版上安裝 Python 和 Pip。
您可以在終端執行以下命令來驗證 Python 和 Pip 是否安裝在您的計算機上。它將返回版本號。
python -V pip -V
安裝成功後,執行下面的命令安裝谷歌的生成式人工智慧依賴項。
pip install -q -U google-generativeai
如何獲取 Gemini Pro API 金鑰
接下來,前往 makersuite.google.com/app/apikey(訪問)並使用 Google 賬戶登入。
在 API 金鑰下,點選 “Create API key in new project” 按鈕。
複製 API 金鑰並儲存。不要公開發布或共享 API 金鑰。
如何使用 Gemini Pro API 金鑰(純文字模式)
與 OpenAI 類似,谷歌也將 Gemini API 金鑰直接用於開發和測試目的。我將程式碼編寫得相當簡單,以便普通使用者測試和使用。在本例中,我將演示如何通過 API 金鑰使用 Gemini Pro 文字模型。
首先,啟動你選擇的程式碼編輯器。如果你是初學者,只需安裝 Notepad++。對於高階使用者,Visual Studio Code 是一個很好的工具。
然後,複製下面的程式碼並貼上到程式碼編輯器中。
import google.generativeai as genai genai.configure(api_key='PASTE YOUR API KEY HERE') model = genai.GenerativeModel('gemini-pro') response = model.generate_content("What is the meaning of life?") print(response.text)
在程式碼編輯器中,貼上你的 Gemini API 金鑰。如您所見,我們定義了 “gemini-pro” 模型,這是一個純文字模型。此外,我們還新增了一個可以提問的查詢。
現在,儲存程式碼併為檔案命名。確保在最後新增 .py
。我將檔案命名為 gemini.py
,並儲存在桌面上。
接下來,開啟終端,執行以下命令移動到桌面。
cd Desktop
進入桌面終端後,只需執行以下命令即可使用 Python 執行 gemini.py
檔案。
python gemini.py
現在,它將回答您在 gemini.py
檔案中設定的問題。
你可以在程式碼編輯器中修改問題,儲存後再次執行 gemini.py
檔案,就能在終端中得到新的回覆。這就是使用 Google Gemini API 金鑰訪問純文字 Gemini Pro 模型的方法。
如何使用 Gemini Pro API 金鑰(文字和視覺模型)
在本例中,我將展示如何與 Gemini Pro 多模態模型進行互動。它還沒有在 Google Bard 上上線,但通過 API,您可以立即訪問它。值得慶幸的是,這個過程同樣非常簡單和無縫。
在程式碼編輯器中開啟一個新檔案,然後貼上下面的程式碼。
import google.generativeai as genai import PIL.Image img = PIL.Image.open('image.jpg') genai.configure(api_key='PASTE YOUR API KEY HERE') model = genai.GenerativeModel('gemini-pro-vision') response = model.generate_content(["what is the total calorie count?", img]) print(response.text)
確保貼上您的 Gemini API 金鑰。在這裡,我們使用的是 gemini-pro-vision
模型,這是一種文字和視覺模型。
現在,將檔案儲存在桌面上,並在檔名後新增 .py
。我在這裡將其命名為 geminiv.py
。
在程式碼的第三行,正如你所看到的,我將 AI 指向儲存在我的桌面上的 image.jpg 檔案,檔名完全相同。無論你要處理什麼影象,都要確保它儲存在與 geminiv.py
檔案相同的位置,並且檔名相同,副檔名正確。你可以傳入不超過 4MB 的本地 JPG 和 PNG 檔案。
在第六行程式碼中,您可以提出與圖片相關的問題。由於我輸入的是與食物有關的圖片,因此我要求 Gemini Pro 計算總卡路里數。
現在是在終端執行程式碼的時候了。只需移動到桌面(就我而言),然後逐一執行下面的命令。如果有任何改動,請確保儲存檔案。
cd Desktop python geminiv.py
Gemini Pro 視覺模型會直接回答問題。您可以進一步提問,要求人工智慧解釋原因。
您也可以輸入不同的圖片,但要確保與圖片檔名一致,更改程式碼中的問題,並再次執行 geminiv.py
檔案以獲得新的響應。
推薦閱讀:如何使用 ChatGPT API 通過自定義知識庫訓練AI聊天機器人
如何以聊天格式使用 Gemini Pro API 金鑰
多虧了 unconv (GitHub) 的簡潔程式碼,你可以在終端視窗中使用 Gemini AI API 金鑰與 Gemini Pro 模型聊天。這樣,你就不必更改程式碼中的問題,也不必重新執行 Python 檔案來獲得新的輸出結果。您可以在終端視窗中繼續聊天。
最重要的是,Google 原生實現了聊天曆史記錄,因此您無需手動新增回復,也無需在陣列或列表中管理聊天曆史記錄。只需一個簡單的函式,Google 就能儲存聊天會話中的所有對話歷史記錄。具體操作如下:
開啟程式碼編輯器,貼上下面的程式碼。
import google.generativeai as genai genai.configure(api_key='PASTE YOUR API KEY HERE') model = genai.GenerativeModel('gemini-pro') chat = model.start_chat() while True: message = input("You: ") response = chat.send_message(message) print("Gemini: " + response.text)
像往常一樣,貼上與上述部分類似的 API 金鑰。
現在,將檔案儲存到桌面或首選位置。確保在最後新增 .py
。我將其命名為 geminichat.py 檔案。
現在,啟動終端並移動到桌面。然後,執行 geminichat.py
檔案。
cd Desktop python geminichat.py
現在你可以毫不費力地繼續對話,它還會記住聊天記錄。因此,這是使用 Google Gemini API 金鑰的另一個好方法。
以上就是幾個例子,你可以嘗試通過 API 來了解谷歌 Gemini 的功能。我很高興谷歌將其視覺模型提供給愛好者和開發者試用,並將其與 OpenAI 的 DALL-E 3 和 ChatGPT 進行比較。雖然 Gemini Pro 視覺模型比不上 GPT-4V 模型,但也相當不錯。我們正在等待與 GPT-4 型號相當的 Gemini Ultra 的推出。
除此之外,Gemini Pro API 的響應與 Google Bard 感覺有些不同,後者也是由 Gemini Pro 的微調版驅動的。Bard 的響應似乎略顯枯燥乏味,但 Gemini Pro 的 API 響應感覺更生動、更有特色。
我們將跟蹤這一領域的所有變化,敬請關注更多與 Gemini AI 相關的內容。同時,請自行檢視 Google Gemini API。
評論留言