在Ollama中使用支持视觉模型可做的3件大事

在Ollama中使用支持视觉模型可做的3件大事

人工智能越来越智能,视觉语言模型正成为开发人员的必备工具。这些聪明的模型可以分析图像并用简单的英语进行描述。通过将语言理解与计算机视觉相结合,它们可以发现视觉内容中的对象、细节或潜在问题。

在本文中,我们将探讨在 Ollama 中使用支持视觉模型的三种实用方法。

选择编程语言

在深入了解这些具体应用之前,让我们先讨论一下编程语言的选择。

我们将使用 PHP。为什么?

我知道在使用人工智能时,PHP 可能不是人们的首选。很多人会选择使用 Python

不过,我认为 PHP 在 LLM 中的表现非常出色。在很多情况下,PHP 的运行速度往往比 Python 快,这使它成为构建人工智能应用程序的理想选择。PHP 具有处理 HTTP 请求和 JSON 的内置功能,因此也很容易与 Ollama 的 API 配合使用。

选择模型

接下来,我们要选择要使用的模型。

Ollama 提供多种支持视觉的模型。它提供具有视觉功能的模型,如 LLaVAllama3.2-vision

在本文中,我们将使用 llama3.2-vision 模型。它比 llava 模型大两倍,但功能更强大,精度更高。

前提条件

也就是说,要构建本文中的应用程序,您需要在计算机上安装和设置以下设备:

  • Ollama:我们将使用 Ollama 下载模型并在本地运行。您可以阅读我们的文章《Ollama 入门》,了解如何在计算机上安装和设置 Ollama。
  • PHP:我们用来构建应用程序的编程语言。查看我们的文章《管理多个 PHP 版本的 5 种方法》,管理计算机上的 PHP 安装。

运行 Ollama 后,我们可以运行以下命令下载 llama3.2-vision。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
ollama pull llama3.2-vision
ollama pull llama3.2-vision
ollama pull llama3.2-vision

然后,我们就可以开始构建和运行我们的应用程序了。

1. 图像到文本的生成

视觉模型最有用的功能之一是描述图像的能力。这些模型可以创建标题、描述和 alt 文本,帮助每个人访问和理解图像。让我们来看看如何实现这一功能。

我创建了一个名为 AltText 的简单类来处理转换:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
class AltText implements Prompt {
use WithOllama;
public function fromImage(string $image): string {
// Parse the image, send prompt to Ollama, and return the response.
}
}
class AltText implements Prompt { use WithOllama; public function fromImage(string $image): string { // Parse the image, send prompt to Ollama, and return the response. } }
class AltText implements Prompt {
use WithOllama;
public function fromImage(string $image): string {
// Parse the image, send prompt to Ollama, and return the response.
}
}

fromImage 方法将图像路径作为输入。然后,它会对图像进行编码,并将其发送到 Ollama 进行处理。

您可以在我们的 ollama-vision-enabled-llms 代码库中找到 PHP 实现的细节,与其深入研究这些细节,不如让我们关注一下关键部分:我们发送给 Ollama 的提示。下面是我们用来生成 alt 文本的内容:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Generate concise, descriptive alt text for this image that:
1. Describes key visual elements and their relationships
2. Provides context and purpose
3. Avoids redundant phrases like "image of" or "picture of"
4. Includes any relevant text visible in the image
5. Follows WCAG guidelines (130 characters max)
Format as a single, clear sentence.
Generate concise, descriptive alt text for this image that: 1. Describes key visual elements and their relationships 2. Provides context and purpose 3. Avoids redundant phrases like "image of" or "picture of" 4. Includes any relevant text visible in the image 5. Follows WCAG guidelines (130 characters max) Format as a single, clear sentence.
Generate concise, descriptive alt text for this image that:
1. Describes key visual elements and their relationships
2. Provides context and purpose
3. Avoids redundant phrases like "image of" or "picture of"
4. Includes any relevant text visible in the image
5. Follows WCAG guidelines (130 characters max)
Format as a single, clear sentence.

让我们以图片为例进行尝试:

粉色小车

Pink Car by Reid Per Fiskerstrand

要为该图片生成 alt 文本,我们可以像下面这样调用我们的类:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
echo (new AltText())->fromImage('./img/image-1.jpg');
echo (new AltText())->fromImage('./img/image-1.jpg');
echo (new AltText())->fromImage('./img/image-1.jpg');

如下图所示,当我们运行这段代码时,模型会生成一个非常准确的图像描述:

图像描述

2. 视觉数据提取

支持视觉的模型的另一项实用功能是从图像中识别和提取文本的能力,也称为光学字符识别(OCR)。

这些模型可以理解表格等内容结构,这在处理数据表截图、财务报告或任何以图像格式保存的表格信息时特别有用。

让我们创建一个简单的工具,从图像中提取表格并将其格式化为 Markdown。如下所示,该工具使用了一个实现 Prompt 接口的类,其结构与我们之前的应用程序类似。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
class TableExtractor implements Prompt {
use WithOllama;
public function fromImage(string $image): string {
// Parse the image, send prompt to Ollama, and return the response.
}
}
class TableExtractor implements Prompt { use WithOllama; public function fromImage(string $image): string { // Parse the image, send prompt to Ollama, and return the response. } }
class TableExtractor implements Prompt {
use WithOllama;
public function fromImage(string $image): string {
// Parse the image, send prompt to Ollama, and return the response.
}
}

不同之处在于我们的提示。在本例中,我们的提示重点是从图像中提取表格:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Extract the table from this image and format it as a Markdown table
with the following requirements:
1. Identify and include all column headers
2. Preserve all data in each cell
3. Maintain the alignment and relationships between columns
4. Format output using Markdown table syntax:
- Use | to separate columns
- Use - for the header separator row
- Align numbers to the right
- Align text to the left
Response should only contain the Markdown formatted table, without
any additional or explanatory text or list before or after the table.
Extract the table from this image and format it as a Markdown table with the following requirements: 1. Identify and include all column headers 2. Preserve all data in each cell 3. Maintain the alignment and relationships between columns 4. Format output using Markdown table syntax: - Use | to separate columns - Use - for the header separator row - Align numbers to the right - Align text to the left Response should only contain the Markdown formatted table, without any additional or explanatory text or list before or after the table.
Extract the table from this image and format it as a Markdown table
with the following requirements:
1. Identify and include all column headers
2. Preserve all data in each cell
3. Maintain the alignment and relationships between columns
4. Format output using Markdown table syntax:
- Use | to separate columns
- Use - for the header separator row
- Align numbers to the right
- Align text to the left
Response should only contain the Markdown formatted table, without
any additional or explanatory text or list before or after the table.

让我们用下面的图片来试试。

发票

使用我们的类,我们可以从图片中提取表格,并使用 Parsedown 将其格式化为 Markdown,如下所示:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
echo (new Parsedown())->text(
(new TableExtractor())->fromImage('./img/image-2.jpg')
);
echo (new Parsedown())->text( (new TableExtractor())->fromImage('./img/image-2.jpg') );
echo (new Parsedown())->text(
(new TableExtractor())->fromImage('./img/image-2.jpg')
);

结果不出所料,从图像中提取的 Markdown 格式表格非常准确。不过,在这种情况下,它还以列表的形式回应了表头,不知何故,如下所示。我认为我们需要重新校准提示符,但现在我对结果还算满意。

提取的 Markdown 格式

你可以在代码库中查看代码实现的完整源代码。

3. 视觉和可访问性测试

并非每个人都能以同样的方式体验网站。有些人觉得难以阅读某些颜色,或者需要更大的文字才能舒适地阅读。还有一些人可能对小按钮或对比度低的文字感到吃力。

这也是视觉功能模型可以提供帮助的地方。我们将使用它们来自动检查我们的网站是否存在这些无障碍问题。这样,我们就能确保我们的网站更具无障碍性,为尽可能多的用户创造更好的体验。

让我们创建一个简单的工具,检查网站是否存在可访问性问题。如下所示,它也使用了一个实现 Prompt 接口的类:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
class VisualTesting implements Prompt {
use WithOllama;
public function fromUrl(string $url): string {
// Parse the URL, send prompt to Ollama, and return the response.
}
}
class VisualTesting implements Prompt { use WithOllama; public function fromUrl(string $url): string { // Parse the URL, send prompt to Ollama, and return the response. } }
class VisualTesting implements Prompt {
use WithOllama;
public function fromUrl(string $url): string {
// Parse the URL, send prompt to Ollama, and return the response.
}
}

我们将添加以下提示,以检查仅通过图像就能观察到的一些相关无障碍问题:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Analyze this UI screenshot for color contrast issues, which includes:
- Text vs background contrast ratios for all content.
- Identify any text below WCAG 2.1 AA standards.
- Flag low-contrast text.
Analyze this UI screenshot for color contrast issues, which includes: - Text vs background contrast ratios for all content. - Identify any text below WCAG 2.1 AA standards. - Flag low-contrast text.
Analyze this UI screenshot for color contrast issues, which includes:
- Text vs background contrast ratios for all content.
- Identify any text below WCAG 2.1 AA standards.
- Flag low-contrast text.

我们用下面的图片试试这个提示。

价格表

使用我们的类,我们可以使用 Parsedown 检查图像是否存在可访问性问题,如下所示:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
echo (new VisualTesting())->fromUrl('./img/image-3.jpg');
echo (new VisualTesting())->fromUrl('./img/image-3.jpg');
echo (new VisualTesting())->fromUrl('./img/image-3.jpg');

该模型可以准确识别图像的内容,并对无障碍问题进行评估。响应如下所示:

该模型可以准确识别图像的内容

不过,我发现结果有时会有偏差,而且根据处理图像的细节,运行速度会非常慢。因此,我们可能需要对模型配置进行微调,使用参数更高的模型,并在更好的硬件上运行。

小结

支持视觉的模型开创了智能、高效的图像处理方法。它们简化了生成图像描述、提取数据和增强可访问性等任务,而这一切只需几行代码即可完成。虽然我们探索的示例只是一个开端,但仍有改进的空间,例如微调模型或制作更好的提示以获得更准确的结果。

随着人工智能的不断发展,在工作流程中添加视觉功能可以帮助您创建功能更强大、用户更友好的应用程序。我认为您一定要考虑探索这一点。

评论留言