使用Qwen-2.5-32b、LangChain和FAISS构建自定义网站聊天机器人

自定义网站聊天机器人

在当今的数字世界中,企业和个人都希望为网站游客提供即时准确的答案。随着无缝沟通需求的增加,AI 驱动的聊天机器人已成为用户互动和在瞬间提供有用信息的重要工具。聊天机器人可以高效地搜索、理解和利用网站数据,让客户满意,并提升公司的客户体验。在本文中,我们将介绍如何在 Qwen-2.5、LangChain 和 FAISS 的帮助下,构建一个从网站获取信息、高效处理信息并进行有意义对话的聊天机器人。

学习目标

  • 了解人工智能驱动的聊天机器人对企业的重要性。
  • 了解如何提取和处理网站数据供聊天机器人使用。
  • 深入了解如何使用 FAISS 进行高效文本检索。
  • 探索拥抱脸嵌入在聊天机器人智能中的作用。
  • 了解如何集成 Qwen-2.5-32b 生成回复。
  • 使用 Streamlit 构建交互式聊天机器人界面。

为什么要使用网站聊天机器人?

许多企业都在努力高效处理大量客户询问。传统的客户支持团队经常面临延误,导致用户沮丧和运营成本增加。此外,招聘和培训支持人员的成本也很高,使公司难以有效扩展。

聊天机器人可以即时自动回复用户问题,无需人工操作。企业能够大大降低支持成本,增加客户互动,并为用户提供即时问题解答。基于人工智能的聊天机器人能够处理大量数据,在几秒钟内确定正确的信息,并根据上下文做出正确反应,因此对当今企业非常有益。

网站聊天机器人主要用于电子学习平台、电子商务网站、客户支持平台和新闻网站。

推荐阅读: 使用 LangChain 和 Qwen-2.5-32B 构建写作助手

聊天机器人的关键组件

  • 非结构化 URL 加载器:从网站中提取内容。
  • 文本分割器:将大型文档分解为易于管理的文本块。
  • FAISS(Facebook 人工智能相似性搜索):高效存储和检索文档嵌入。
  • Qwen-2.5-32b:强大的语言模型,可理解查询并生成响应。
  • Streamlit:创建交互式聊天机器人界面的框架。

AI聊天机器人如何工作?

下面的流程图解释了聊天机器人的工作原理。

AI聊天机器人如何工作

使用Qwen-2.5-32b和LangChain构建自定义聊天机器人

现在让我们看看如何使用 Qwen-2.5-32b、LangChain 和 FAISS 构建自定义网站聊天机器人。

第 1 步:设置基础

让我们从设置先决条件开始。

1. 环境设置

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
# Create a Environment
python -m venv env
# Activate it on Windows
.\env\Scripts\activate
# Activate in MacOS/Linux
source env/bin/activate
# Create a Environment python -m venv env # Activate it on Windows .\env\Scripts\activate # Activate in MacOS/Linux source env/bin/activate
# Create a Environment
python -m venv env
# Activate it on Windows
.\env\Scripts\activate
# Activate in MacOS/Linux
source env/bin/activate

2. 安装Requirements.txt

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
pip install -r https://raw.githubusercontent.com/Gouravlohar/Chatbot/refs/heads/main/requirements.txt
pip install -r https://raw.githubusercontent.com/Gouravlohar/Chatbot/refs/heads/main/requirements.txt
pip install -r https://raw.githubusercontent.com/Gouravlohar/Chatbot/refs/heads/main/requirements.txt

3. API密钥设置

API密钥设置

在 .env 文件中粘贴 API 密钥。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
API_KEY="Your API KEY PASTE HERE"
API_KEY="Your API KEY PASTE HERE"
API_KEY="Your API KEY PASTE HERE"

现在,让我们进入实际编码部分。

第 2 步:处理Windows事件循环(为了兼容)

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
import sys
import asyncio
if sys.platform.startswith("win"):
asyncio.set_event_loop_policy(asyncio.WindowsSelectorEventLoopPolicy())
import sys import asyncio if sys.platform.startswith("win"): asyncio.set_event_loop_policy(asyncio.WindowsSelectorEventLoopPolicy())
import sys
import asyncio
if sys.platform.startswith("win"):
asyncio.set_event_loop_policy(asyncio.WindowsSelectorEventLoopPolicy())

通过为 asyncio 设置正确的事件循环策略,确保与 Windows 兼容,因为 Windows 使用不同的默认事件循环。

第 3 步:导入所需库函数

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
import streamlit as st
import os
from dotenv import load_dotenv
import streamlit as st import os from dotenv import load_dotenv
import streamlit as st
import os
from dotenv import load_dotenv
  • Streamlit 用于创建聊天机器人用户界面。
  • os 用于设置环境变量。
  • dotenv 可帮助从 .env 文件加载 API 密钥。
Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
os.environ["STREAMLIT_SERVER_FILEWATCHER_TYPE"] = "none"
os.environ["STREAMLIT_SERVER_FILEWATCHER_TYPE"] = "none"
os.environ["STREAMLIT_SERVER_FILEWATCHER_TYPE"] = "none"

这将禁用 Streamlit 的文件监视器,通过减少不必要的文件系统监视来提高性能。

第 4 步:导入LangChain模块

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_community.document_loaders import UnstructuredURLLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_groq import ChatGroq
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain_huggingface import HuggingFaceEmbeddings from langchain_community.vectorstores import FAISS from langchain_community.document_loaders import UnstructuredURLLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain_groq import ChatGroq from langchain.chains import create_retrieval_chain from langchain.chains.combine_documents import create_stuff_documents_chain from langchain_core.prompts import ChatPromptTemplate
from langchain_huggingface import HuggingFaceEmbeddings  
from langchain_community.vectorstores import FAISS
from langchain_community.document_loaders import UnstructuredURLLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_groq import ChatGroq
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
  • HuggingFaceEmbeddings:将文本转换为向量嵌入。
  • FAISS:根据查询存储和检索相关文档块。
  • UnstructuredURLLoader:从网页 URL 加载文本内容。
  • RecursiveCharacterTextSplitter:将大文本分割成小块进行处理。
  • ChatGroq:使用 Groq API 进行人工智能响应。
  • create_retrieval_chain:构建一个管道,先检索相关文档,然后再将其传递给 LLM。
  • create_stuff_documents_chain:将检索到的文档合并为适合 LLM 处理的格式。

第 5 步:加载环境变量

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
load_dotenv()
groq_api_key = os.getenv("API_KEY")
if not groq_api_key:
st.error("Groq API Key not found in .env file")
st.stop()
load_dotenv() groq_api_key = os.getenv("API_KEY") if not groq_api_key: st.error("Groq API Key not found in .env file") st.stop()
load_dotenv()
groq_api_key = os.getenv("API_KEY")
if not groq_api_key:
st.error("Groq API Key not found in .env file")
st.stop()
  • 从 .env 文件中加载 Groq API 密钥。
  • 如果缺少密钥,应用程序会显示错误并停止执行。

1. 加载网站数据的功能

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
def load_website_data(urls):
loader = UnstructuredURLLoader(urls=urls)
return loader.load()
def load_website_data(urls): loader = UnstructuredURLLoader(urls=urls) return loader.load()
def load_website_data(urls):
loader = UnstructuredURLLoader(urls=urls)
return loader.load()
  • 使用 UnstructuredURLLoader 从 URL 列表中获取内容。

2. 分块文件功能

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
def chunk_documents(docs):
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
return text_splitter.split_documents(docs)
def chunk_documents(docs): text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50) return text_splitter.split_documents(docs)
def chunk_documents(docs):
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
return text_splitter.split_documents(docs)
  • 将大段文字分割成 500 个字符的片段,片段间有 50 个字符的重叠,以更好地保留上下文。

3. 建立FAISS向量存储的功能

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
def build_vectorstore(text_chunks):
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
return FAISS.from_documents(text_chunks, embeddings)
def build_vectorstore(text_chunks): embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2") return FAISS.from_documents(text_chunks, embeddings)
def build_vectorstore(text_chunks):
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
return FAISS.from_documents(text_chunks, embeddings)
  • 使用 all-MiniLM-L6-v2 将文本块转换为向量嵌入。
  • 将嵌入存储在 FAISS 向量数据库中,以便高效检索。

4. 加载Qwen-2.5-32b的功能

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
def load_llm(api_key):
return ChatGroq(groq_api_key=api_key, model_name="qwen-2.5-32b", streaming=True)
def load_llm(api_key): return ChatGroq(groq_api_key=api_key, model_name="qwen-2.5-32b", streaming=True)
def load_llm(api_key):
return ChatGroq(groq_api_key=api_key, model_name="qwen-2.5-32b", streaming=True)
  • 加载用于生成响应的 Groq Qwen-2.5-32b 模型。
  • 启用流媒体,获得实时响应体验。

5. Streamlit UI设置

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
st.title("Custom Website Chatbot(Analytics Vidhya)")
st.title("Custom Website Chatbot(Analytics Vidhya)")
st.title("Custom Website Chatbot(Analytics Vidhya)")

6. 对话历史记录设置

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
if "conversation" not in st.session_state:
st.session_state.conversation = []
if "conversation" not in st.session_state: st.session_state.conversation = []
if "conversation" not in st.session_state:
st.session_state.conversation = []
  • 将聊天历史记录存储在 st.session_state 中,以便信息在不同交互中持续存在。

第 6 步:获取和处理网站数据

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
urls = ["https://www.analyticsvidhya.com/"]
docs = load_website_data(urls)
text_chunks = chunk_documents(docs)
urls = ["https://www.analyticsvidhya.com/"] docs = load_website_data(urls) text_chunks = chunk_documents(docs)
urls = ["https://www.analyticsvidhya.com/"]
docs = load_website_data(urls)
text_chunks = chunk_documents(docs)
  • 从分析 Vidhya 中加载内容。
  • 将内容分割成小块。

第 7 步:构建FAISS向量存储

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
vectorstore = build_vectorstore(text_chunks)
retriever = vectorstore.as_retriever()
vectorstore = build_vectorstore(text_chunks) retriever = vectorstore.as_retriever()
vectorstore = build_vectorstore(text_chunks)
retriever = vectorstore.as_retriever()

将处理过的文本块存储在 FAISS 中。然后将 FAISS 向量存储转换为检索器,以便根据用户查询获取相关的文本块。

第 8 步:加载Groq LLM

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
llm = load_llm(groq_api_key)
llm = load_llm(groq_api_key)
llm = load_llm(groq_api_key)

第 9 步:设置检索链

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
system_prompt = (
"Use the given context to answer the question. "
"If you don't know the answer, say you don't know. "
"Use detailed sentences maximum and keep the answer accurate. "
"Context: {context}"
)
prompt = ChatPromptTemplate.from_messages([
("system", system_prompt),
("human", "{input}"),
])
combine_docs_chain = create_stuff_documents_chain(llm, prompt)
qa_chain = create_retrieval_chain(
retriever=retriever,
combine_docs_chain=combine_docs_chain
)
system_prompt = ( "Use the given context to answer the question. " "If you don't know the answer, say you don't know. " "Use detailed sentences maximum and keep the answer accurate. " "Context: {context}" ) prompt = ChatPromptTemplate.from_messages([ ("system", system_prompt), ("human", "{input}"), ]) combine_docs_chain = create_stuff_documents_chain(llm, prompt) qa_chain = create_retrieval_chain( retriever=retriever, combine_docs_chain=combine_docs_chain )
system_prompt = (
"Use the given context to answer the question. "
"If you don't know the answer, say you don't know. "
"Use detailed sentences maximum and keep the answer accurate. "
"Context: {context}"
)
prompt = ChatPromptTemplate.from_messages([
("system", system_prompt),
("human", "{input}"),
])
combine_docs_chain = create_stuff_documents_chain(llm, prompt)
qa_chain = create_retrieval_chain(
retriever=retriever,
combine_docs_chain=combine_docs_chain
)
  • 定义系统提示,以确保准确的、基于上下文的回答。
  • 使用 ChatPromptTemplate 来格式化聊天机器人的交互。
  • 组合检索到的文档(combine_docs_chain),为 LLM 提供上下文。

该步骤通过将检索器(FAISS)与 LLM 连接起来创建一个qa_chain ,确保回复基于检索到的网站内容。

第 10 步: 显示聊天历史记录

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
for msg in st.session_state.conversation:
if msg["role"] == "user":
st.chat_message("user").write(msg["message"])
else:
st.chat_message("assistant").write(msg["message"])
for msg in st.session_state.conversation: if msg["role"] == "user": st.chat_message("user").write(msg["message"]) else: st.chat_message("assistant").write(msg["message"])
for msg in st.session_state.conversation:
if msg["role"] == "user":
st.chat_message("user").write(msg["message"])
else:
st.chat_message("assistant").write(msg["message"])

这将显示之前的对话信息。

第 11 步:接受用户输入

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
user_input = st.chat_input("Type your message here") if hasattr(st, "chat_input") else st.text_input("Your message:")
user_input = st.chat_input("Type your message here") if hasattr(st, "chat_input") else st.text_input("Your message:")
user_input = st.chat_input("Type your message here") if hasattr(st, "chat_input") else st.text_input("Your message:")
  • 使用 st.chat_input(如果可用)以获得更好的聊天界面。
  • 为兼容性起见,会退回到 st.text_input。

第 12 步:处理用户查询

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
if user_input:
st.session_state.conversation.append({"role": "user", "message": user_input})
if hasattr(st, "chat_message"):
st.chat_message("user").write(user_input)
else:
st.markdown(f"**User:** {user_input}")
with st.spinner("Processing..."):
response = qa_chain.invoke({"input": user_input})
assistant_response = response.get("answer", "I'm not sure, please try again.")
st.session_state.conversation.append({"role": "assistant", "message": assistant_response})
if hasattr(st, "chat_message"):
st.chat_message("assistant").write(assistant_response)
else:
st.markdown(f"**Assistant:** {assistant_response}")
if user_input: st.session_state.conversation.append({"role": "user", "message": user_input}) if hasattr(st, "chat_message"): st.chat_message("user").write(user_input) else: st.markdown(f"**User:** {user_input}") with st.spinner("Processing..."): response = qa_chain.invoke({"input": user_input}) assistant_response = response.get("answer", "I'm not sure, please try again.") st.session_state.conversation.append({"role": "assistant", "message": assistant_response}) if hasattr(st, "chat_message"): st.chat_message("assistant").write(assistant_response) else: st.markdown(f"**Assistant:** {assistant_response}")
if user_input:
st.session_state.conversation.append({"role": "user", "message": user_input})
if hasattr(st, "chat_message"):
st.chat_message("user").write(user_input)
else:
st.markdown(f"**User:** {user_input}")
with st.spinner("Processing..."):
response = qa_chain.invoke({"input": user_input})  
assistant_response = response.get("answer", "I'm not sure, please try again.")
st.session_state.conversation.append({"role": "assistant", "message": assistant_response})
if hasattr(st, "chat_message"):
st.chat_message("assistant").write(assistant_response)
else:
st.markdown(f"**Assistant:** {assistant_response}")

这段代码用于处理聊天机器人中的用户输入、检索和回复生成。当用户输入信息时,信息会存储在 st.session_state.conversation 中,并显示在聊天界面上。聊天机器人使用 qa_chain.invoke({“input”: user_input}) 处理查询时,会出现一个加载旋转器,该旋转器会检索相关信息并生成回复。助手的回复是从回复字典中提取的,确保在找不到回复时有一条后备信息。最后,助手的回复将被存储和显示,以保持流畅的交互式聊天体验。

点击此处从 GitHub 获取完整代码

最终输出

最终输出

测试聊天机器人

现在,让我们在刚刚创建的聊天机器人上测试几个提示。

提示:Can you list some ways to engage with the Analytics Vidhya community?

响应

测试聊天机器人

提示:what other programs they offers?

响应

测试聊天机器人

结论

人工智能聊天机器人改变了人们在互联网上交流的方式。使用 Qwen-2.5-32b 这样的先进模型,企业和个人可以确保聊天机器人做出适当的回应。随着技术的不断进步,在网站上使用人工智能聊天机器人将是大势所趋,人们将能轻松获取信息。

未来,长时间对话、语音提问和与更大的知识库互动等发展将进一步推动聊天机器人的进步。

  • 聊天机器人从 Analytics Vidhya 网站获取内容,对其进行处理,并将其存储到 FAISS 向量数据库中,以便快速检索。
  • 它将网站内容分割成 500 个字符的小块,每块有 50 个字符的重叠部分,确保在检索相关信息时能更好地保留上下文。
  • 聊天机器人使用 Qwen-2.5-32b 生成回复,利用检索到的文档块提供准确的上下文感知答案。
  • 用户可以使用 Streamlit 中的聊天界面与聊天机器人进行互动,并存储对话历史记录以实现无缝互动。

常见问题

Q1. 该聊天机器人如何从网站获取数据?

A. 它使用 LangChain 的 UnstructuredURLLoader 从指定 URL 提取内容。

Q2. 为什么在这个聊天机器人中使用 FAISS?

A. FAISS(Facebook 人工智能相似性搜索)有助于根据用户查询高效地存储和检索相关文本块。

Q3. 使用什么模型生成回复?

A. 聊天机器人使用 Groq 的 Qwen-2.5-32B(一种功能强大的 LLM),根据检索到的网站内容生成答案。

Q4. 这个聊天机器人可以扩展到多个网站吗?

A. 可以!只需修改 urls 列表以包含更多网站,聊天机器人就会从中获取、处理和检索信息。

Q5. 聊天机器人如何确保回复准确无误?

A. 它采用检索-增强生成(RAG)方法,即先检索相关网站数据,然后使用 LLM 生成答案。

评论留言