Paligemma 2 믹스 : Demo OCR 프로젝트가있는 가이드-일체 포함-php.cn

집

기술 주변기기

일체 포함

Paligemma 2 믹스 : Demo OCR 프로젝트가있는 가이드

Christopher Nolan

Feb 28, 2025 pm 04:32 PM

Paligemma 2 Mix는 Google에서 개발 한 멀티 모달 AI 모델입니다. Siglip Vision 모델 및 Gemma 2 언어 모델의 고급 기능을 통합하는 Paligemma Vision Language Model (VLM)의 개선 된 버전입니다. 이 튜토리얼에서는 Paligemma 2 Mix를 사용하여 AI 구동 청구서 스캐너를 구축하고 다음을 수행 할 수있는 방법을 설명하는 방법을 설명합니다.

청구서 영수증에서 비용을 추출하고 분류합니다 핵심 정보를 검색하기 위해 광학 문자 인식 (OCR) 수행 () 제공된 이미지를 기준으로 지출 요약

우리의 초점은 재무 통찰력 도구를 구축하는 데 중점을 두지만이 블로그에서 배운 내용을 사용하여 이미지 세분화, 객체 감지 및 질문 답변과 같은 Paligemma 2 믹스의 다른 사용 사례를 탐색 할 수 있습니다. Paligemma 2 믹스 란 무엇입니까?

Paligemma 2 Mix는 이미지와 텍스트를 입력으로 처리하고 텍스트 기반 출력을 생성하는 고급 비전 언어 모델 (VLM)입니다. 여러 언어를 지원하면서 다양한 멀티 모달 AI 작업을 처리하도록 설계되었습니다. paligemma 2는 이미지 및 짧은 비디오 캡션, 시각적 질문 응답, 광학 문자 인식 (OCR), 객체 감지 및 세분화를 포함한 다양한 비전 언어 작업을 위해 설계되었습니다.

다이어그램에 사용 된 이미지의 출처 : Google Paligemma 2 믹스 모델은 다음을 위해 설계되었습니다

공식 릴리스 기사에서 Paligemma 2 믹스 모델에 대한 자세한 정보를 찾을 수 있습니다.

프로젝트 개요 : Paligemma 2 Mix를 사용한 청구서 스캐너 및 소비 분석기 우리가 취할 주요 단계를 간략하게 설명하자 :

데이터 세트로드 및 준비 : 프로세스는 입력으로 영수증 이미지를로드하고 준비하여 시작됩니다. Paligemma 2 믹스 모델 초기화 : 비전 언어 작업 처리를위한 모델을 구성하고로드합니다. 입력 이미지 프로세스 : 그런 다음 이미지를 적절한 형식 (RGB)으로 변환하고 분석을 준비하십시오. <: :> 주요 정보 추출 : OCR (Optical Character Recognition)을 수행하여 총 금액을 검색합니다. 비용 분류 : 구매를 식료품, 의류, 전자 제품 및 기타와 같은 범주로 분류합니다. 지출 통찰력 생성 : 분류 된 비용을 요약하고 지출 분배 차트를 생성합니다. 대화식 Gradio 인터페이스 구축 : 마지막으로, 사용자가 여러 청구서를 업로드하고 데이터를 추출하고 시각적으로 지출을 분석 할 수있는 UI를 만듭니다.

1 단계 : 전제 조건 시작하기 전에 다음 도구와 라이브러리가 설치되어 있는지 확인합시다.

파이썬 3.8

변압기

matplotlib

gradio

필요한 종속성을 설치하려면 다음 명령을 실행하십시오

위의 종속성이 설치되면 다음 가져 오기 명령을 실행하십시오.

2 단계 : 모델 초기화 우리는 성능을 최적화하기 위해 양자화로 Paligemma 2 믹스 모델을 구성하고로드합니다. 이 데모의 경우 448 x 448 입력 이미지 해상도의 10B 매개 변수 모델을 사용합니다. 이 모델을 실행하려면 40GB 메모리 (Colab 구성)가있는 최소 T4 GPU가 필요합니다.

우리는 모델 ID 및 양자화 구성을 전달하여 변압기 라이브러리에서 PaligemMaforConditionAlgeneration 클래스를 사용하여 모델을로드합니다. 마찬가지로, 우리는 프로세서를로드하여 모델로 전달하기 전에 입력을 텐서로 전처리합니다. 3 단계 : 이미지 처리 일단 모델 파편이로드되면 이미지 형식 호환성을 유지하고 균일 성을 유지하기 위해 모델로 전달하기 전에 이미지를 처리합니다. 이미지를 RGB 형식으로 변환합니다 이제, 우리의 이미지는 추론 준비가되었습니다. 4 단계 : Paligemma와의 추론

이제 모델과의 추론을 실행하기위한 주요 기능을 설정했습니다. 이 기능은 입력 이미지와 질문을 사용하여 프롬프트에 통합하여 추론을 위해 프로세서를 통해 모델로 전달합니다.

5 단계 : 주요 정보 추출 이제 주요 기능을 준비 했으므로 이미지에서 주요 매개 변수를 추출하는 작업을 수행 할 것입니다.이 경우 총 금액 및 상품 범주입니다.

pip install gradio -U bitsandbytes -U transformers -q

로그인 후 복사

extract_total_amount () 함수는 OCR을 사용하여 영수증에서 총 금액을 추출하기 위해 이미지를 처리합니다. 모델에 숫자 값 만 추출하도록 지시하는 쿼리 (Question)를 구성 한 다음 ASK_Model () 함수를 호출하여 모델에서 응답을 생성합니다.

Categorize_goods () 함수는 식료품, 의류, 전자 제품 또는 기타 등의 범주를 목록하는 사전 정의 된 질문으로 모델을 프롬프트하여 이미지의 상품 유형을 분류합니다. Ask_Model () 함수는 이미지를 처리하고 텍스트 응답을 반환합니다. 처리 된 응답이 사전 정의 된 유효한 범주와 일치하면 해당 범주를 반환합니다. 기본적으로 기본적으로 "기타"범주로 표시됩니다. 6 단계 : 정보 분석 우리는 모든 주요 함수를 준비하고 있으므로 출력을 분석해 봅시다.

import gradio as gr
import torch
import pandas as pd
import matplotlib.pyplot as plt
from transformers import PaliGemmaForConditionalGeneration, PaliGemmaProcessor, BitsAndBytesConfig
from transformers import BitsAndBytesConfig
from PIL import Image
import re

로그인 후 복사

위의 함수는 다른 범주에서 지출 분포를 시각화하기위한 원형 차트를 만듭니다. 유효한 지출 데이터가 존재하지 않으면 "지출 데이터 없음"을 나타내는 메시지가 포함 된 빈 그림이 생성됩니다. 그렇지 않으면 카테고리 레이블과 백분율 값으로 파이 차트를 생성하여 비례적이고 잘 정렬 된 시각화를 보장합니다. 6 단계 : 여러 청구서를 동시에 분석하는

우리는 일반적으로 분석 할 여러 청구서가 있으므로 모든 청구서를 동시에 처리 할 수있는 기능을 작성해 봅시다.

한 번에 여러 청구서를 분석하려면 다음 단계를 수행합니다.

<: :> Storage 초기화 : 결과 및 이미지 저장을위한 목록을 작성하고, Total_spending을 0으로 설정하고, 카테고리-총계에 대한 사전을 정의합니다. <:> 각 청구서를 처리하십시오 :

이미지를 rgb로 변환하고 변환합니다 이미지를 목록에 추가하십시오 영수증에서 총 금액을 추출하십시오 영수증에서 상품을 분류합니다 총 지출 및 범주 별 총계를 업데이트하십시오 추출 된 데이터를 결과 목록에 저장하십시오

device = "cuda" if torch.cuda.is_available() else "cpu"
# Model setup
model_id = "google/paligemma2-10b-mix-448" 
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,  # Change to load_in_4bit=True for even lower memory usage
    llm_int8_threshold=6.0,
)

# Load model with quantization
model = PaliGemmaForConditionalGeneration.from_pretrained(
    model_id, quantization_config=bnb_config
).eval()

# Load processor
processor = PaliGemmaProcessor.from_pretrained(model_id)
# Print success message
print("Model and processor loaded successfully!")

로그인 후 복사

통찰력 생성 : 우리는 총 지출 요약과 함께 지출 분포 파이 차트를 만듭니다. 반환 결과 : 마지막으로, 우리는 이미지 목록, 청구서 요약의 데이터 프레임, 총 지출 요약 및 지출 차트를 반환합니다.

7 단계 : Gradio 인터페이스를 구축하십시오 이제 모든 주요 논리 기능이 있습니다. 다음으로, 우리는 Gradio와 함께 대화식 UI를 구축하는 작업을 수행합니다

위의 코드는 여러 이미지 용 파일 업 로더와 처리를 트리거하기 위해 제출 버튼으로 구조화 된 Gradio UI를 만듭니다. 제출시, 업로드 된 청구서 이미지가 갤러리에 표시되고 추출 된 데이터가 표에 표시되며, 총 지출은 텍스트에 요약되며 지출 분포 원형 차트가 생성됩니다.

이 기능은 사용자 입력을 Process_Multiple_Bills () 함수에 연결하여 원활한 데이터 추출 및 시각화를 보장합니다. 마지막으로 Demo.launch () 함수는 실시간 상호 작용을 위해 Gradio 앱을 시작합니다.

나는 또한 두 개의 이미지 기반 청구서 (아마존 쇼핑 송장) 로이 데모를 시도하고 다음과 같은 결과를 얻었습니다. 참고 : VLMS는 숫자를 추출하기가 어렵다는 것을 알게되어 때때로 잘못된 결과를 초래할 수 있습니다. 예를 들어, 아래 두 번째 청구서에 대한 잘못된 총 금액을 추출했습니다. 이것은 더 큰 모델을 사용하거나 기존 모델을 단순히 미세 조정하는 데 수정할 수 있습니다.

Paligemma 2 믹스 : Demo OCR 프로젝트가있는 가이드

결론 이 튜토리얼에서는 Paligemma 2 Mix를 사용하여 AI 전원 다중 청구서 스캐너를 구축하여 영수증에서 비용을 추출하고 분류하는 데 도움이 될 수 있습니다. 우리는 Paligemma 2 Mix의 비전 언어 기능을 사용하여 OCR 및 분류 기능을 사용하여 지출 통찰력을 쉽게 분석했습니다. 이 튜토리얼을 자신의 유스 케이스에 조정하는 것이 좋습니다.

위 내용은 Paligemma 2 믹스 : Demo OCR 프로젝트가있는 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1664

Cakephp 튜토리얼

1423

라라벨 튜토리얼

1321

PHP 튜토리얼

1269

C# 튜토리얼

1249

Related knowledge

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - &#8217

GPT-4O vs Openai O1 : 새로운 OpenAI 모델은 과대 광고 가치가 있습니까? Apr 13, 2025 am 10:18 AM

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서 Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics Vidhya Apr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

SQL에서 열을 추가하는 방법? - 분석 Vidhya Apr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

라마 드라마 너머 : 대형 언어 모델에 대한 4 개의 새로운 벤치 마크 Apr 14, 2025 am 11:09 AM

문제가있는 벤치 마크 : 라마 사례 연구 2025 년 4 월 초, Meta는 LLAMA 4 제품군을 공개하여 GPT-4O 및 Claude 3.5 Sonnet과 같은 경쟁자들에 대해 호의적으로 배치 한 인상적인 성능 지표를 자랑했습니다. Launc의 중심

Agno 프레임 워크를 사용하여 멀티 모달 AI 에이전트를 구축하는 방법은 무엇입니까? Apr 23, 2025 am 11:30 AM

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법 Apr 14, 2025 am 11:27 AM

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

See all articles

Paligemma 2 믹스 : Demo OCR 프로젝트가있는 가이드

이제 모델과의 추론을 실행하기위한 주요 기능을 설정했습니다. 이 기능은 입력 이미지와 질문을 사용하여 프롬프트에 통합하여 추론을 위해 프로세서를 통해 모델로 전달합니다.

<: :> Storage 초기화 : 결과 및 이미지 저장을위한 목록을 작성하고, Total_spending을 0으로 설정하고, 카테고리-총계에 대한 사전을 정의합니다. <:> 각 청구서를 처리하십시오 :

이 기능은 사용자 입력을 Process_Multiple_Bills () 함수에 연결하여 원활한 데이터 추출 및 시각화를 보장합니다. 마지막으로 Demo.launch () 함수는 실시간 상호 작용을 위해 Gradio 앱을 시작합니다.

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제