如何在本地(離線)使用PrivateGPT訓練自定義AI聊天機器人

如何在本地(離線)使用PrivateGPT訓練自定義AI聊天機器人

在之前的教程中,我們演示了如何使用ChatGPT API訓練一個自定義的AI聊天機器人。雖然效果相當好,但我們知道,一旦你的免費OpenAI點數用完,你需要為API付費,這不是每個人都能負擔得起的。此外,一些使用者不願意與OpenAI分享機密資料。因此,如果你想建立一個私人的人工智慧聊天機器人,而不需要連線到網際網路,也不需要為API訪問支付任何費用,本指南就是為你準備的。PrivateGPT是一個新的開源專案,可以讓你在AI聊天機器人介面中與你的檔案進行私人互動。為了瞭解更多,讓我們學習如何在本地使用PrivateGPT訓練一個定製的人工智慧聊天機器人。

在你的電腦上設定PrivateGPT的要求

1. 要在你的機器上本地執行PrivateGPT,你需要一臺中高階的機器。你不能在老式膝上型電腦/桌上型電腦上執行它。為了給你一個簡單的概念,我在一臺配備英特爾第十代i3處理器的入門級臺式電腦上測試了PrivateGPT,它需要接近2分鐘來響應查詢。請記住,PrivateGPT並不使用GPU。目前,它只依賴CPU,這使得效能更差。儘管如此,如果你想測試這個專案,你肯定可以去看看。

2. PrivateGPT可以離線使用,無需連線任何線上伺服器,也無需從OpenAI或Pinecone新增任何API金鑰。為了便於使用,它在你的電腦上本地執行一個LLM模型。因此,你必須在你的電腦上下載一個與GPT4All-J相容的LLM模型。我在下面新增了詳細的步驟供你參考。

設定環境來訓練一個私人的AI聊天機器人

1. 首先,你需要在你的Windows、macOS或Linux電腦上安裝Python 3.10或更高版本。你可以點選這個連結,立即下載Python。

安裝Python 3.10或更高版本

2. 接下來,執行安裝檔案,確保啟用 “Add Python.exe to PATH” 的覈取方塊。之後,點選 “Install Now”,按照常規步驟安裝Python。

按照常規步驟安裝Python

3. 接下來,如果你使用的是Windows,你需要安裝Visual Studio 2022。這樣做是為了獲得C++ CMake tool and UWP元件。點選這個連結,免費下載 “Community” 版本。

安裝Visual Studio 2022

4. 現在,執行該安裝程式,它將下載另一個安裝程式。會出現一個視窗,你可以選擇元件。向下滾動並選擇 “Desktop Development with C++” 和 “Universal Windows Platform development”。

"Desktop Development with C++" 和 "Universal Windows Platform development"

5. 接下來,點選右下角的 “Install” 按鈕。安裝完成後,重新啟動你的電腦。此後你不需要再使用Visual Studio,但要保持它的安裝。

安裝必須的元件

6. 最後,繼續從這裡下載預設模型(”groovy”)。其大小約為3.5GB。如果你有一個更強大的計算機,你可以從這個連結中下載其他模型。

下載預設模型("groovy")

如何在你的電腦上本地設定PrivateGPT

1. 首先,開啟privateGPT倉庫的GitHub連結,點選右側的 “Code”。在這裡,點選 “Download ZIP“。

下載privateGPT原始碼

2. 現在,開啟ZIP檔案,提取名為 “privateGPT-main” 的資料夾。

"privateGPT-main" 解壓資料夾

3. 接下來,開啟 “privateGPT-main” 資料夾,建立一個名為 “models” 的新資料夾。

建立一個名為 "models" 的新資料夾

4. 在 “models” 資料夾下,貼上你上面下載的 “groovy” 模型。

貼上下載的 "groovy" 模型

5. 現在,回到主資料夾,你會發現一個 “example.env” 檔案。將它重新命名為”.env” 檔案。

將它重新命名為".env" 檔案

6. 現在,右鍵單擊”.env” 檔案,用記事本開啟它。

用記事本開啟.env

7. 如果你已經下載了一個不同的模型,你可以在 “MODEL_PATH” 下定義它。因為我們使用的是預設模型,所以不需要改變。你現在可以關閉記事本。

在 "MODEL_PATH" 下定義模型

8. 接下來,開啟 “source_documents” 資料夾。在這裡,你可以新增各種檔案來訓練自定義AI聊天機器人。作為一個例子,開發者已經新增了TXT格式的國情諮文的記錄。不過,你也可以在這裡新增PDF、DOC、DOCX、CSV、EPUB、TXT、PPT、PPTX、ODT、MSG、MD、HTML、EML和ENEX檔案。

開啟 "source_documents" 資料夾

使用PrivateGPT訓練一個自定義AI聊天機器人

1. 最後,是時候使用PrivateGPT訓練一個自定義的人工智慧聊天機器人了。在你的電腦上開啟終端。如果你使用的是Windows,開啟Windows終端或命令提示符。

電腦上開啟終端

2. 現在,右鍵點選 “privateGPT-main” 資料夾,選擇 “複製檔案地址”。這將複製該資料夾的路徑。

複製"privateGPT-main" 資料夾的路徑

3. 現在,移回終端,輸入 cd ,加一個空格,然後在終端視窗中右擊,貼上檔案地址。它看起來會像下面這樣。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
cd "C:\Users\mearj\Downloads\privateGPT-main"
cd "C:\Users\mearj\Downloads\privateGPT-main"
cd "C:\Users\mearj\Downloads\privateGPT-main"

終端進入"privateGPT-main" 資料夾

4. 接下來,點選回車鍵,你將進入到privateGPT-main資料夾。

進入到privateGPT-main資料夾

5. 一旦你進入該資料夾,執行下面的命令,它將開始安裝所有的軟體包和依賴項。完成這一過程可能需要10到15分鐘,所以請保持耐心。如果你遇到任何錯誤,再次執行下面的命令,確保Visual Studio和上面提到的兩個元件被正確安裝。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
pip3 install -r requirements.txt
pip3 install -r requirements.txt
pip3 install -r requirements.txt

執行安裝命令

6. 一旦所有的依賴被安裝,執行下面的命令來建立本地嵌入和vectorstore。這個過程將需要幾秒鐘,這取決於新增到 “source_documents” 中的資料語料庫。macOS和Linux使用者可能需要在下面的命令中使用 python3 而不是 python

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
python ingest.py
python ingest.py
python ingest.py

執行下面的命令來建立本地嵌入和向量商店

7. 最後,通過執行下面的命令執行PrivateGPT。你會被要求輸入你的查詢。輸入你的問題並點選回車。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
python privateGPT.py
python privateGPT.py
python privateGPT.py

執行PrivateGPT

8. 在我的英特爾第十代i3處理器的臺式電腦上,回答一個問題需要將近2分鐘。在每一個回答之後,它還會顯示四個來源,它從那裡得到了背景。

回答問題

9. 要停止對話,請輸入 exit 並點選Enter。

停止對話

你也可以關閉網際網路,但私人AI聊天機器人仍將工作,因為所有的事情都是在本地完成的。PrivateGPT還沒有網路介面,所以你現在只能在命令列介面中使用它。此外,它目前沒有利用GPU的優勢,這是個遺憾。一旦引入GPU支援,效能會變得更好。最後,要載入PrivateGPT人工智慧聊天機器人,如果你沒有在原始檔夾中新增新檔案,只需執行 python privateGPT.py 即可。

評論留言

脣槍舌劍 (2)

  • 蒋的頭像

    2023.6.7 17:06

    ModuleNotFoundError: No module named ‘langchain’

    好多个模块找不到,怎么处理呢
    谢谢大佬

    回覆
    • WBOLT_COM

      2023.6.7 17:06

      试试 python -m pip install langchain