Paligemma 2ミックス：デモOCRプロジェクトを備えたガイド-AI-php.cn

ホームページ

テクノロジー周辺機器

Paligemma 2ミックス：デモOCRプロジェクトを備えたガイド

Christopher Nolan

Feb 28, 2025 pm 04:32 PM

Paligemma 2 Mixは、Googleが開発したマルチモーダルAIモデルです。これは、PALIGEMMA Vision Language Model（VLM）の改善されたバージョンであり、Siglip VisionモデルとGemma 2言語モデルの高度な機能を統合しています。このチュートリアルでは、Paligemma 2ミックスを使用してAI搭載の請求書スキャナーと支出アナライザーを構築する方法を説明します。

請求書の領収書から費用の抽出と分類

キー情報を取得するために光学文字認識（OCR）を実行します。

財務洞察ツールの構築に焦点を当てていますが、このブログで学んだことを使用して、画像セグメンテーション、オブジェクト検出、質問への回答など、パリゲンマ2ミックスの他のユースケースを探索できます。
Paligemma 2 Mixは、画像とテキストの両方を入力として処理し、テキストベースの出力を生成する高度なビジョン言語モデル（VLM）です。複数の言語をサポートしながら、多様なマルチモーダルAIタスクを処理するように設計されています。

図で使用されている画像のソース：Google

paligemma 2ミックスモデルは、

用に設計されています

画像と短いビデオキャプション：静的画像と短いビデオの正確でコンテキスト対応のキャプションを生成します。

視覚的な質問応答（VQA）：視覚コンテンツに基づいて画像の分析とテキストベースの質問に答える。

光学文字認識（OCR）：画像からテキストを抽出して解釈し、ドキュメント、領収書、スキャンされた資料に役立ちます。 Paligemma 2ミックス：デモOCRプロジェクトを備えたガイドオブジェクトの検出とセグメンテーション：構造化された分析のために画像内のオブジェクトを識別、ラベル、およびセグメント。

多言語サポート：モデルは、グローバルアプリケーションの複数の言語でのテキスト生成と理解を可能にします。

公式リリース記事で、Paligemma 2 Mixモデルに関する詳細情報を見つけることができます。

プロジェクトの概要：Bill ScannerとPaligemma 2 Mixを使用した支出アナライザー

1. データセットのロードと準備：プロセスは、領収書画像を入力としてロードおよび準備することから始まります。
2. プロセス入力画像：次に、画像を適切な形式（RGB）に変換し、分析の準備をします。
3. 費用の分類：食料品、衣類、電子機器などのカテゴリに購入を分類します。
4. インタラクティブなグラデーションインターフェイスの作成：最後に、ユーザーが複数の請求書をアップロードし、データを抽出し、視覚的に支出を分析できるUIを作成します。
5. ステップ1：前提条件
6. 開始する前に、次のツールとライブラリがインストールされていることを確認しましょう。
7. python 3.8
トーチ

変圧器

pil
- matplotlib
- Gradio
bitsandbytesの量子化は、パフォーマンスを維持しながらメモリの使用量を削減し、限られたGPUリソースで大規模なモデルを実行することを可能にします。この実装では、4ビットの量子化を使用して、メモリ効率をさらに最適化します。
```
pip install gradio -U bitsandbytes -U transformers -q
```
ログイン後にコピー
ログイン後にコピー
モデルIDと量子化構成を渡すことにより、変圧器ライブラリからPaligemmamaforConditionalGenerationクラスを使用してモデルをロードします。同様に、プロセッサをロードします。プロセッサは、テンソルをモデルに渡す前にテンソルに入力を前処理します。
ステップ3：画像処理
```
import gradio as gr
import torch
import pandas as pd
import matplotlib.pyplot as plt
from transformers import PaliGemmaForConditionalGeneration, PaliGemmaProcessor, BitsAndBytesConfig
from transformers import BitsAndBytesConfig
from PIL import Image
import re
```
ログイン後にコピー
ログイン後にコピー
モデルシャードがロードされたら、画像形式の互換性を維持するためにモデルに渡す前に画像を処理し、均一性を獲得します。画像をRGB形式に変換します：

さて、私たちの画像は推論の準備ができています。
```
device = "cuda" if torch.cuda.is_available() else "cpu"
# Model setup
model_id = "google/paligemma2-10b-mix-448" 
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # Change to load_in_4bit=True for even lower memory usage
    llm_int8_threshold=6.0,
)

# Load model with quantization
model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id, quantization_config=bnb_config
).eval()

# Load processor
processor = PaliGemmaProcessor.from_pretrained(model_id)
# Print success message
print("Model and processor loaded successfully!")
```
ログイン後にコピー
ログイン後にコピー
ステップ4：パリゲンマとの推論

次に、モデルとの推論を実行するための主な関数を設定します。この関数は、入力画像と質問を取り入れ、それらをプロンプトに組み込み、推論のためにプロセッサを介してモデルに渡します。

ステップ5：キー情報の抽出

メイン関数が準備が整ったので、次に画像から重要なパラメーターを抽出することに取り組みます。私たちの場合、これらは合計金額と商品のカテゴリです。
```
pip install gradio -U bitsandbytes -U transformers -q
```
ログイン後にコピー
ログイン後にコピー
extract_total_amount（）関数は画像を処理して、OCRを使用して領収書から合計金額を抽出します。数値のみを抽出するようにモデルに指示するクエリ（質問）を構築し、Ask_model（）関数を呼び出してモデルから応答を生成します。
```
import gradio as gr
import torch
import pandas as pd
import matplotlib.pyplot as plt
from transformers import PaliGemmaForConditionalGeneration, PaliGemmaProcessor, BitsAndBytesConfig
from transformers import BitsAndBytesConfig
from PIL import Image
import re
```
ログイン後にコピー
ログイン後にコピー
caltearize_goods（）関数は、食料品、衣類、エレクトロニクス、またはその他の事前定義された質問をリストする事前定義された質問でモデルに促すことにより、画像の商品の種類を分類します。 Ask_model（）関数は、画像を処理し、テキスト応答を返します。処理された応答が事前に定義された有効なカテゴリのいずれかと一致する場合、そのカテゴリを返します。他に、デフォルトは「その他」カテゴリになります。
ステップ6：情報の分析

すべてのキー関数の準備ができているため、出力を分析しましょう。

上記の関数は、異なるカテゴリにわたって支出分布を視覚化するためのパイチャートを作成します。有効な支出データが存在しない場合、「支出データがない」を示すメッセージを含む空白のフィギュアが生成されます。それ以外の場合は、カテゴリのラベルとパーセンテージ値を備えたパイチャートを作成し、比例した整合した視覚化を確保します。
```
device = "cuda" if torch.cuda.is_available() else "cpu"
# Model setup
model_id = "google/paligemma2-10b-mix-448" 
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # Change to load_in_4bit=True for even lower memory usage
    llm_int8_threshold=6.0,
)

# Load model with quantization
model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id, quantization_config=bnb_config
).eval()

# Load processor
processor = PaliGemmaProcessor.from_pretrained(model_id)
# Print success message
print("Model and processor loaded successfully!")
```
ログイン後にコピー
ログイン後にコピー
ステップ6：複数の請求書を同時に分析します

通常、分析する複数の請求書があるので、すべての請求書を同時に処理する関数を作成しましょう。

複数の請求書を一度に分析するために、次の手順を実行します。

ストレージの初期化：結果と画像を保存するためのリストを作成し、合計を0に設定し、カテゴリごとの合計の辞書を定義します。
```
def ensure_rgb(image: Image.Image) -> Image.Image:
    if image.mode != "RGB":
        image = image.convert("RGB")
    return image
```
ログイン後にコピー
各請求書を処理します：
1. 画像をRGBに開いて変換します
領収書の商品を分類します
- 抽出されたデータを結果リストに保存します
- 結果の結果：最後に、画像のリスト、請求書の要約のデータフレーム、総支出概要、および支出チャートを返します。
- ステップ7：グレードインターフェイスを構築します
- 今、すべての重要なロジック関数が整っています。次に、Gradioを使用してインタラクティブUIの構築に取り組みます
- 上記のコードでは、複数の画像用のファイルアップローダーを備えた構造化されたグラデーションUIと、トリガー処理の送信ボタンを作成します。提出されると、アップロードされた請求書画像がギャラリーに表示され、抽出されたデータがテーブルに表示され、総支出がテキストに要約され、支出分布パイチャートが生成されます。