
在本教程中,我们将探讨如何在 Google Colab 中建立并执行复杂的检索增强生成(RAG)管道。我们利用多种最先进的工具和库,包括用于语言和视觉任务的 Gemma 3、用于文档转换的 Docling、用于思维链协调的 LangChain 以及作为矢量数据库的 Milvus,构建了一个能够理解和处理文本、表格和图像的多模态系统。让我们深入了解每个组件,看看它们是如何协同工作的
什么是多模态RAG
多模态 RAG(Retrieval-Augmented Generation,检索增强生成)通过整合多种数据模态(本例中为文本、表格和图像),扩展了传统的基于文本的 RAG 系统。这意味着管道不仅能处理和检索文本,还能利用视觉模型来理解和描述图像内容,从而使解决方案更加全面。这种多模态方法尤其适用于像年度报告这样经常包含图表等视觉元素的文档。
使用Gemma的多模态RAG拟议架构

该项目的目标是建立一个强大的多模态 RAG 管道,该管道可以摄取文档(如 PDF)、处理文本和图像、将文档嵌入存储到矢量数据库中,并通过检索相关信息来回答查询。这种设置对于分析年度报告、提取财务报表或总结技术论文等应用特别有用。通过整合各种库和工具,我们将语言模型的强大功能与文档转换和矢量搜索结合起来,创建了一个全面的端到端解决方案。
库和工具概述
该管道使用了几个关键库和工具:
- Colab-Xterm 扩展库:它在 Colab 中增加了终端支持,使我们能够运行 shell 命令并有效管理环境。
- Ollama 模型:提供 Gemma3 等预训练模型,用于语言和视觉任务。
- Transformers:来自 Hugging Face,用于模型加载和标记化。
- LangChain:协调从提示创建到文档检索和生成的一连串处理步骤。
- Docling:将 PDF 文档转换为结构化格式,可提取文本、表格和图像。
- Milvus:矢量数据库,用于存储文档嵌入并支持高效的相似性搜索。
- Hugging Face CLI:用于登录 Hugging Face 访问某些模型。
- 其他实用工具:如用于图像处理的 Pillow 和用于显示功能的 IPython。
使用Gemma 3构建多模态RAG
我们正在构建多模态 RAG:这种方法提高了上下文理解、准确性和相关性,尤其是在医疗保健、研究和媒体分析等领域。通过利用跨模态嵌入、混合检索策略和视觉语言模型,多模态 RAG 系统可以提供更丰富、更有洞察力的响应。关键的挑战在于如何有效地整合和检索多模态数据,同时保持一致性和可扩展性。随着人工智能的发展,开发优化的架构和检索策略对于释放多模态智能的全部潜力至关重要。
使用Colab-Xterm进行终端设置
首先,我们安装 colab-xterm 扩展,将终端环境直接引入 Colab。这样,我们就可以运行系统命令、安装软件包,并更灵活地管理会话。
!pip install colab-xterm # Install colab-xterm
%load_ext colabxterm # Load the xterm extension
%xterm # Launch an xterm terminal session in Colab
!pip install colab-xterm # Install colab-xterm
%load_ext colabxterm # Load the xterm extension
%xterm # Launch an xterm terminal session in Colab
!pip install colab-xterm # Install colab-xterm
%load_ext colabxterm # Load the xterm extension
%xterm # Launch an xterm terminal session in Colab

这种终端支持对于安装额外的依赖项或管理后台进程特别有用。
安装和管理Ollama模型
我们可以使用简单的 shell 命令将特定的 Ollama 模型调入我们的环境。例如
!ollama pull gemma3:4b
!ollama pull llama3.2
!ollama list
!ollama pull gemma3:4b
!ollama pull llama3.2
!ollama list
这些命令确保我们有必要的语言和视觉模型可用,例如强大的 Gemma 3 模型,它是我们多模态处理的核心。
安装基本Python软件包
下一步是安装我们的管道所需的大量软件包。这包括深度学习、文本处理和文档处理库:
! pip install transformers pillow langchain_community langchain_huggingface langchain_milvus docling langchain_ollama
! pip install transformers pillow langchain_community langchain_huggingface langchain_milvus docling langchain_ollama
! pip install transformers pillow langchain_community langchain_huggingface langchain_milvus docling langchain_ollama
通过安装这些软件包,我们可以为从文件转换到检索增强生成等一切工作准备好环境。
日志记录和Hugging Face验证
设置日志对于监控管道运行至关重要:
logging.basicConfig(level=logging.INFO)
import logging
logging.basicConfig(level=logging.INFO)
import logging
logging.basicConfig(level=logging.INFO)
我们还使用其 CLI 登录 Hugging Face,以访问某些预训练模型:
!huggingface-cli login
这一认证步骤对于获取模型工件和确保与 Hugging Face 生态系统的顺利集成十分必要。
配置视觉和语言模型(Gemma 3)
该管道利用 Gemma 3 模型完成视觉和语言任务。在语言方面,我们设置了模型和标记器:
这种双重设置能让系统从图像中生成文本描述,使管道真正实现多模态。
使用Docling进行文档转换
1. 将PDF转换为结构化文档
我们使用 Docling 的 DocumentConverter 将 PDF 转换为结构化文档。转换过程包括从源 PDF 中提取文本、表格和图像:
from docling.document_converter import DocumentConverter, PdfFormatOption
from docling.datamodel.base_models import InputFormat
from docling.datamodel.pipeline_options import PdfPipelineOptions
pdf_pipeline_options = PdfPipelineOptions(
generate_picture_images=True,
format_options = { InputFormat.PDF: PdfFormatOption(pipeline_options=pdf_pipeline_options) }
converter = DocumentConverter(format_options=format_options)
# Define the sources (URLs) of the documents to be converted.
# "https://arxiv.org/pdf/1706.03762"
"https://www.pwc.com/jm/en/research-publications/pdf/basic-understanding-of-a-companys-financials.pdf"
# Convert the PDF documents from the sources into an internal document format.
conversions = { source: converter.convert(source=source).document for source in sources }
from docling.document_converter import DocumentConverter, PdfFormatOption
from docling.datamodel.base_models import InputFormat
from docling.datamodel.pipeline_options import PdfPipelineOptions
pdf_pipeline_options = PdfPipelineOptions(
do_ocr=False,
generate_picture_images=True,
)
format_options = { InputFormat.PDF: PdfFormatOption(pipeline_options=pdf_pipeline_options) }
converter = DocumentConverter(format_options=format_options)
# Define the sources (URLs) of the documents to be converted.
# "https://arxiv.org/pdf/1706.03762"
sources = [
"https://www.pwc.com/jm/en/research-publications/pdf/basic-understanding-of-a-companys-financials.pdf"
]
# Convert the PDF documents from the sources into an internal document format.
conversions = { source: converter.convert(source=source).document for source in sources }
from docling.document_converter import DocumentConverter, PdfFormatOption
from docling.datamodel.base_models import InputFormat
from docling.datamodel.pipeline_options import PdfPipelineOptions
pdf_pipeline_options = PdfPipelineOptions(
do_ocr=False,
generate_picture_images=True,
)
format_options = { InputFormat.PDF: PdfFormatOption(pipeline_options=pdf_pipeline_options) }
converter = DocumentConverter(format_options=format_options)
# Define the sources (URLs) of the documents to be converted.
# "https://arxiv.org/pdf/1706.03762"
sources = [
"https://www.pwc.com/jm/en/research-publications/pdf/basic-understanding-of-a-companys-financials.pdf"
]
# Convert the PDF documents from the sources into an internal document format.
conversions = { source: converter.convert(source=source).document for source in sources }

Source – Link
我们将使用普华永道公开的财务报表。我附上了 PDF 链接,也欢迎大家添加自己的源链接!
2. 提取和分割内容
转换后,我们将文档分成易于管理的部分,将文本与表格和图片分开。通过这种分割,可以对每个部分进行独立处理:
from docling_core.transforms.chunker.hybrid_chunker import HybridChunker
from langchain_core.documents import Document
# Process text chunks (excluding pure table segments)
texts: list[Document] = []
for source, docling_document in conversions.items():
for chunk in HybridChunker(tokenizer=embeddings_tokenizer).chunk(docling_document):
# Skip table-only chunks; process tables separately
if len(chunk.meta.doc_items) == 1:
metadata={"source": source, "ref": "reference details"}
from docling_core.transforms.chunker.hybrid_chunker import HybridChunker
from langchain_core.documents import Document
# Process text chunks (excluding pure table segments)
texts: list[Document] = []
for source, docling_document in conversions.items():
for chunk in HybridChunker(tokenizer=embeddings_tokenizer).chunk(docling_document):
# Skip table-only chunks; process tables separately
if len(chunk.meta.doc_items) == 1:
continue
document = Document(
page_content=chunk.text,
metadata={"source": source, "ref": "reference details"}
)
texts.append(document)
from docling_core.transforms.chunker.hybrid_chunker import HybridChunker
from langchain_core.documents import Document
# Process text chunks (excluding pure table segments)
texts: list[Document] = []
for source, docling_document in conversions.items():
for chunk in HybridChunker(tokenizer=embeddings_tokenizer).chunk(docling_document):
# Skip table-only chunks; process tables separately
if len(chunk.meta.doc_items) == 1:
continue
document = Document(
page_content=chunk.text,
metadata={"source": source, "ref": "reference details"}
)
texts.append(document)
这种方法不仅能提高处理效率,还有助于日后进行更精确的矢量存储和检索。
图像处理和编码
我们使用 Pillow 处理文档中的图像。我们将图像转换为 base64 编码字符串,这些字符串可直接嵌入到提示中:
import base64, io, PIL.Image, PIL.ImageOps
def encode_image(image: PIL.Image.Image, format: str = "png") -> str:
image = PIL.ImageOps.exif_transpose(image) or image
image = image.convert("RGB")
image.save(buffer, format)
encoding = base64.b64encode(buffer.getvalue()).decode("utf-8")
return f"data:image/{format};base64,{encoding}"
import base64, io, PIL.Image, PIL.ImageOps
def encode_image(image: PIL.Image.Image, format: str = "png") -> str:
image = PIL.ImageOps.exif_transpose(image) or image
image = image.convert("RGB")
buffer = io.BytesIO()
image.save(buffer, format)
encoding = base64.b64encode(buffer.getvalue()).decode("utf-8")
return f"data:image/{format};base64,{encoding}"
import base64, io, PIL.Image, PIL.ImageOps
def encode_image(image: PIL.Image.Image, format: str = "png") -> str:
image = PIL.ImageOps.exif_transpose(image) or image
image = image.convert("RGB")
buffer = io.BytesIO()
image.save(buffer, format)
encoding = base64.b64encode(buffer.getvalue()).decode("utf-8")
return f"data:image/{format};base64,{encoding}"
随后,这些图像会被输入我们的视觉模型,生成描述性文本,从而增强我们管道的多模态能力。
利用Milvus创建矢量数据库
为了快速准确地检索文档嵌入,我们将 Milvus 设置为向量存储库:
from langchain_core.vectorstores import VectorStore
from langchain_milvus import Milvus
db_file = tempfile.NamedTemporaryFile(prefix="vectorstore_", suffix=".db", delete=False).name
vector_db: VectorStore = Milvus(
embedding_function=embeddings_model,
connection_args={"uri": db_file},
enable_dynamic_field=True,
index_params={"index_type": "AUTOINDEX"},
import tempfile
from langchain_core.vectorstores import VectorStore
from langchain_milvus import Milvus
db_file = tempfile.NamedTemporaryFile(prefix="vectorstore_", suffix=".db", delete=False).name
vector_db: VectorStore = Milvus(
embedding_function=embeddings_model,
connection_args={"uri": db_file},
auto_id=True,
enable_dynamic_field=True,
index_params={"index_type": "AUTOINDEX"},
)
import tempfile
from langchain_core.vectorstores import VectorStore
from langchain_milvus import Milvus
db_file = tempfile.NamedTemporaryFile(prefix="vectorstore_", suffix=".db", delete=False).name
vector_db: VectorStore = Milvus(
embedding_function=embeddings_model,
connection_args={"uri": db_file},
auto_id=True,
enable_dynamic_field=True,
index_params={"index_type": "AUTOINDEX"},
)
然后,文档–无论是文本、表格还是图像描述–都会被添加到矢量数据库中,从而在执行查询时实现快速、准确的相似性搜索。
构建检索增强生成(RAG)链
1. 提示创建和文档包装
使用 LangChain 的提示模板,我们可以创建自定义提示,将上下文和查询输入我们的语言模型:
from langchain.prompts import PromptTemplate
prompt = "{input} Given the context: {context}"
prompt_template = PromptTemplate.from_template(template=prompt)
from langchain.prompts import PromptTemplate
prompt = "{input} Given the context: {context}"
prompt_template = PromptTemplate.from_template(template=prompt)
from langchain.prompts import PromptTemplate
prompt = "{input} Given the context: {context}"
prompt_template = PromptTemplate.from_template(template=prompt)
每个检索到的文档都使用文档提示模板进行包装,确保模型能够理解输入上下文的结构。
2. 组装RAG管道
我们将提示与向量存储相结合,创建一个检索链,首先获取相关文档,然后利用它们生成一个连贯的答案:
from langchain.chains.retrieval import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
combine_docs_chain = create_stuff_documents_chain(
document_prompt=PromptTemplate.from_template(template="""\
document_separator="\n\n",
rag_chain = create_retrieval_chain(
retriever=vector_db.as_retriever(),
combine_docs_chain=combine_docs_chain,
from langchain.chains.retrieval import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
combine_docs_chain = create_stuff_documents_chain(
llm=model,
prompt=prompt_template,
document_prompt=PromptTemplate.from_template(template="""\
Document {doc_id}
{page_content}"""),
document_separator="\n\n",
)
rag_chain = create_retrieval_chain(
retriever=vector_db.as_retriever(),
combine_docs_chain=combine_docs_chain,
)
from langchain.chains.retrieval import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
combine_docs_chain = create_stuff_documents_chain(
llm=model,
prompt=prompt_template,
document_prompt=PromptTemplate.from_template(template="""\
Document {doc_id}
{page_content}"""),
document_separator="\n\n",
)
rag_chain = create_retrieval_chain(
retriever=vector_db.as_retriever(),
combine_docs_chain=combine_docs_chain,
)
然后根据该链执行查询,检索上下文,并根据查询和存储的文档嵌入生成响应。
执行查询和检索信息
一旦建立了 RAG 链,就可以运行查询,从文档数据库中检索相关信息。例如
query = "Explain Three Key Financial Statements Notes"
outputs = rag_chain.invoke({"input": query})
Markdown(outputs['answer'])
query = "Explain Three Key Financial Statements Notes"
outputs = rag_chain.invoke({"input": query})
Markdown(outputs['answer'])
query = "Explain Three Key Financial Statements Notes"
outputs = rag_chain.invoke({"input": query})
Markdown(outputs['answer'])

query = "tell me the Contents of an annual report"
outputs = rag_chain.invoke({"input": query})
Markdown(outputs['answer'])
query = "tell me the Contents of an annual report"
outputs = rag_chain.invoke({"input": query})
Markdown(outputs['answer'])
query = "tell me the Contents of an annual report"
outputs = rag_chain.invoke({"input": query})
Markdown(outputs['answer'])

query = "what are the benefits of an annual report?"
outputs = rag_chain.invoke({"input": query})
Markdown(outputs['answer'])
query = "what are the benefits of an annual report?"
outputs = rag_chain.invoke({"input": query})
Markdown(outputs['answer'])
query = "what are the benefits of an annual report?"
outputs = rag_chain.invoke({"input": query})
Markdown(outputs['answer'])

同样的过程可用于各种查询,例如解释财务报表附注或总结年度报告,从而展示了管道的多功能性。
以下是完整代码:AV-multimodal-gemma3-rag
使用案例
该管道有许多应用:
- 财务报告:自动提取和汇总关键财务报表、现金流要素和年度报告细节。
- 文档分析:将 PDF 转换为结构化数据,用于进一步分析或机器学习任务。
- 多模态搜索:结合文本和视觉内容,实现混合媒体文件的搜索和检索。
- 商业智能:通过聚合和综合各种模式的信息,快速洞察复杂的文档。
小结
在本教程中,我们演示了如何在 Google Colab 中使用 Gemma 3 构建多模态 RAG。通过整合 Colab-Xterm、Ollama 模型(Gemma 3)、Docling、LangChain 和Milvus 等工具,我们创建了一个能够处理文本、表格和图像的系统。这一功能强大的设置不仅能实现有效的文档检索,还能在各种应用中支持复杂的查询回答和分析。无论您处理的是财务报告、研究论文还是商业智能任务,该管道都能为您提供多功能、可扩展的解决方案。
祝您编码愉快,并尽情探索多模态检索增强生成的可能性!
评论留言