在Ollama中使用支援視覺模型可做的3件大事

在Ollama中使用支援視覺模型可做的3件大事

人工智慧越來越智慧,視覺語言模型正成為開發人員的必備工具。這些聰明的模型可以分析影像並用簡單的英語進行描述。透過將語言理解與計算機視覺相結合,它們可以發現視覺內容中的物件、細節或潛在問題。

在本文中,我們將探討在 Ollama 中使用支援視覺模型的三種實用方法。

選擇程式語言

在深入瞭解這些具體應用之前,讓我們先討論一下程式語言的選擇。

我們將使用 PHP。為什麼?

我知道在使用人工智慧時,PHP 可能不是人們的首選。很多人會選擇使用 Python

不過,我認為 PHP 在 LLM 中的表現非常出色。在很多情況下,PHP 的執行速度往往比 Python 快,這使它成為構建人工智慧應用程式的理想選擇。PHP 具有處理 HTTP 請求和 JSON 的內建功能,因此也很容易與 Ollama 的 API 配合使用。

選擇模型

接下來,我們要選擇要使用的模型。

Ollama 提供多種支援視覺的模型。它提供具有視覺功能的模型,如 LLaVAllama3.2-vision

在本文中,我們將使用 llama3.2-vision 模型。它比 llava 模型大兩倍,但功能更強大,精度更高。

前提條件

也就是說,要構建本文中的應用程式,您需要在計算機上安裝和設定以下裝置:

  • Ollama:我們將使用 Ollama 下載模型並在本地執行。您可以閱讀我們的文章《Ollama 入門》,瞭解如何在計算機上安裝和設定 Ollama。
  • PHP:我們用來構建應用程式的程式語言。檢視我們的文章《管理多個 PHP 版本的 5 種方法》,管理計算機上的 PHP 安裝。

執行 Ollama 後,我們可以執行以下命令下載 llama3.2-vision。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
ollama pull llama3.2-vision
ollama pull llama3.2-vision
ollama pull llama3.2-vision

然後,我們就可以開始構建和執行我們的應用程式了。

1. 影像到文字的生成

視覺模型最有用的功能之一是描述影像的能力。這些模型可以建立標題、描述和 alt 文字,幫助每個人訪問和理解影像。讓我們來看看如何實現這一功能。

我建立了一個名為 AltText 的簡單類來處理轉換:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
class AltText implements Prompt {
use WithOllama;
public function fromImage(string $image): string {
// Parse the image, send prompt to Ollama, and return the response.
}
}
class AltText implements Prompt { use WithOllama; public function fromImage(string $image): string { // Parse the image, send prompt to Ollama, and return the response. } }
class AltText implements Prompt {
use WithOllama;
public function fromImage(string $image): string {
// Parse the image, send prompt to Ollama, and return the response.
}
}

fromImage 方法將影像路徑作為輸入。然後,它會對影像進行編碼,並將其傳送到 Ollama 進行處理。

您可以在我們的 ollama-vision-enabled-llms 程式碼庫中找到 PHP 實現的細節,與其深入研究這些細節,不如讓我們關注一下關鍵部分:我們傳送給 Ollama 的提示。下面是我們用來生成 alt 文字的內容:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Generate concise, descriptive alt text for this image that:
1. Describes key visual elements and their relationships
2. Provides context and purpose
3. Avoids redundant phrases like "image of" or "picture of"
4. Includes any relevant text visible in the image
5. Follows WCAG guidelines (130 characters max)
Format as a single, clear sentence.
Generate concise, descriptive alt text for this image that: 1. Describes key visual elements and their relationships 2. Provides context and purpose 3. Avoids redundant phrases like "image of" or "picture of" 4. Includes any relevant text visible in the image 5. Follows WCAG guidelines (130 characters max) Format as a single, clear sentence.
Generate concise, descriptive alt text for this image that:
1. Describes key visual elements and their relationships
2. Provides context and purpose
3. Avoids redundant phrases like "image of" or "picture of"
4. Includes any relevant text visible in the image
5. Follows WCAG guidelines (130 characters max)
Format as a single, clear sentence.

讓我們以圖片為例進行嘗試:

粉色小車

Pink Car by Reid Per Fiskerstrand

要為該圖片生成 alt 文字,我們可以像下面這樣呼叫我們的類:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
echo (new AltText())->fromImage('./img/image-1.jpg');
echo (new AltText())->fromImage('./img/image-1.jpg');
echo (new AltText())->fromImage('./img/image-1.jpg');

如下圖所示,當我們執行這段程式碼時,模型會生成一個非常準確的影像描述:

影像描述

2. 視覺資料提取

支援視覺的模型的另一項實用功能是從影像中識別和提取文字的能力,也稱為光學字元識別(OCR)。

這些模型可以理解表格等內容結構,這在處理資料表截圖、財務報告或任何以影像格式儲存的表格資訊時特別有用。

讓我們建立一個簡單的工具,從影像中提取表格並將其格式化為 Markdown。如下所示,該工具使用了一個實現 Prompt 介面的類,其結構與我們之前的應用程式類似。

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
class TableExtractor implements Prompt {
use WithOllama;
public function fromImage(string $image): string {
// Parse the image, send prompt to Ollama, and return the response.
}
}
class TableExtractor implements Prompt { use WithOllama; public function fromImage(string $image): string { // Parse the image, send prompt to Ollama, and return the response. } }
class TableExtractor implements Prompt {
use WithOllama;
public function fromImage(string $image): string {
// Parse the image, send prompt to Ollama, and return the response.
}
}

不同之處在於我們的提示。在本例中,我們的提示重點是從影像中提取表格:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Extract the table from this image and format it as a Markdown table
with the following requirements:
1. Identify and include all column headers
2. Preserve all data in each cell
3. Maintain the alignment and relationships between columns
4. Format output using Markdown table syntax:
- Use | to separate columns
- Use - for the header separator row
- Align numbers to the right
- Align text to the left
Response should only contain the Markdown formatted table, without
any additional or explanatory text or list before or after the table.
Extract the table from this image and format it as a Markdown table with the following requirements: 1. Identify and include all column headers 2. Preserve all data in each cell 3. Maintain the alignment and relationships between columns 4. Format output using Markdown table syntax: - Use | to separate columns - Use - for the header separator row - Align numbers to the right - Align text to the left Response should only contain the Markdown formatted table, without any additional or explanatory text or list before or after the table.
Extract the table from this image and format it as a Markdown table
with the following requirements:
1. Identify and include all column headers
2. Preserve all data in each cell
3. Maintain the alignment and relationships between columns
4. Format output using Markdown table syntax:
- Use | to separate columns
- Use - for the header separator row
- Align numbers to the right
- Align text to the left
Response should only contain the Markdown formatted table, without
any additional or explanatory text or list before or after the table.

讓我們用下面的圖片來試試。

發票

使用我們的類,我們可以從圖片中提取表格,並使用 Parsedown 將其格式化為 Markdown,如下所示:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
echo (new Parsedown())->text(
(new TableExtractor())->fromImage('./img/image-2.jpg')
);
echo (new Parsedown())->text( (new TableExtractor())->fromImage('./img/image-2.jpg') );
echo (new Parsedown())->text(
(new TableExtractor())->fromImage('./img/image-2.jpg')
);

結果不出所料,從影像中提取的 Markdown 格式表格非常準確。不過,在這種情況下,它還以列表的形式回應了表頭,不知何故,如下所示。我認為我們需要重新校準提示符,但現在我對結果還算滿意。

提取的 Markdown 格式

你可以在程式碼庫中檢視程式碼實現的完整原始碼。

3. 視覺和可訪問性測試

並非每個人都能以同樣的方式體驗網站。有些人覺得難以閱讀某些顏色,或者需要更大的文字才能舒適地閱讀。還有一些人可能對小按鈕或對比度低的文字感到吃力。

這也是視覺功能模型可以提供幫助的地方。我們將使用它們來自動檢查我們的網站是否存在這些無障礙問題。這樣,我們就能確保我們的網站更具無障礙性,為儘可能多的使用者創造更好的體驗。

讓我們建立一個簡單的工具,檢查網站是否存在可訪問性問題。如下所示,它也使用了一個實現 Prompt 介面的類:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
class VisualTesting implements Prompt {
use WithOllama;
public function fromUrl(string $url): string {
// Parse the URL, send prompt to Ollama, and return the response.
}
}
class VisualTesting implements Prompt { use WithOllama; public function fromUrl(string $url): string { // Parse the URL, send prompt to Ollama, and return the response. } }
class VisualTesting implements Prompt {
use WithOllama;
public function fromUrl(string $url): string {
// Parse the URL, send prompt to Ollama, and return the response.
}
}

我們將新增以下提示,以檢查僅透過影像就能觀察到的一些相關無障礙問題:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
Analyze this UI screenshot for color contrast issues, which includes:
- Text vs background contrast ratios for all content.
- Identify any text below WCAG 2.1 AA standards.
- Flag low-contrast text.
Analyze this UI screenshot for color contrast issues, which includes: - Text vs background contrast ratios for all content. - Identify any text below WCAG 2.1 AA standards. - Flag low-contrast text.
Analyze this UI screenshot for color contrast issues, which includes:
- Text vs background contrast ratios for all content.
- Identify any text below WCAG 2.1 AA standards.
- Flag low-contrast text.

我們用下面的圖片試試這個提示。

價格表

使用我們的類,我們可以使用 Parsedown 檢查影像是否存在可訪問性問題,如下所示:

Plain text
Copy to clipboard
Open code in new window
EnlighterJS 3 Syntax Highlighter
echo (new VisualTesting())->fromUrl('./img/image-3.jpg');
echo (new VisualTesting())->fromUrl('./img/image-3.jpg');
echo (new VisualTesting())->fromUrl('./img/image-3.jpg');

該模型可以準確識別影像的內容,並對無障礙問題進行評估。響應如下所示:

該模型可以準確識別影像的內容

不過,我發現結果有時會有偏差,而且根據處理影像的細節,執行速度會非常慢。因此,我們可能需要對模型配置進行微調,使用引數更高的模型,並在更好的硬體上執行。

小結

支援視覺的模型開創了智慧、高效的影像處理方法。它們簡化了生成影像描述、提取資料和增強可訪問性等任務,而這一切只需幾行程式碼即可完成。雖然我們探索的示例只是一個開端,但仍有改進的空間,例如微調模型或製作更好的提示以獲得更準確的結果。

隨著人工智慧的不斷發展,在工作流程中新增視覺功能可以幫助您建立功能更強大、使用者更友好的應用程式。我認為您一定要考慮探索這一點。

評論留言