Paligemma 2 Mix:Demo OCR项目的指南
>从账单收据中提取和分类费用。
- >执行光学特征识别(OCR)以检索关键信息。
- >根据提供的图像总结支出。
- >我们的重点是构建财务见解工具,但您可以使用此博客中所学的知识来探索其他Paligemma 2 Mix的用例,例如图像细分,对象检测和问题答案。
- > 什么是paligemma 2混合?
>
paligemma 2专为各种视觉语言任务而设计,包括图像和简短的视频字幕,视觉问题答案,光学特征识别(OCR),对象检测和分割。>
>图中使用的图像的来源:google paligemma 2混合模型设计用于:
>步骤2:模型初始化 > bitsandbytes量化有助于减少记忆使用量的同时保持性能,从而可以在有限的GPU资源上运行大型模型。在此实现中,我们使用4位量化来进一步优化内存效率。
>步骤4:推理使用paligemma
> extract_total_amount()函数处理图像以使用OCR从收据中提取总量。它构建了一个查询(问题),指示模型仅提取数值值,然后调用ask_model()函数以生成模型的响应。
>对象检测和分割:它在图像中标识,标签和片段对象进行结构化分析。
>步骤1:先决条件
>在开始之前,让我们确保我们安装了以下工具和库:
>
pip install gradio -U bitsandbytes -U transformers -q
import gradio as gr
import torch
import pandas as pd
import matplotlib.pyplot as plt
from transformers import PaliGemmaForConditionalGeneration, PaliGemmaProcessor, BitsAndBytesConfig
from transformers import BitsAndBytesConfig
from PIL import Image
import re
device = "cuda" if torch.cuda.is_available() else "cpu"
# Model setup
model_id = "google/paligemma2-10b-mix-448"
bnb_config = BitsAndBytesConfig(
load_in_8bit=True, # Change to load_in_4bit=True for even lower memory usage
llm_int8_threshold=6.0,
)
# Load model with quantization
model = PaliGemmaForConditionalGeneration.from_pretrained(
model_id, quantization_config=bnb_config
).eval()
# Load processor
processor = PaliGemmaProcessor.from_pretrained(model_id)
# Print success message
print("Model and processor loaded successfully!")
现在,我们的图像已准备好推理。
>
def ensure_rgb(image: Image.Image) -> Image.Image:
if image.mode != "RGB":
image = image.convert("RGB")
return image
>现在我们已经准备好主函数,我们将下一个从图像中提取关键参数 - 在我们的情况下,这些是总金额和商品类别。pip install gradio -U bitsandbytes -U transformers -q
import gradio as gr
import torch
import pandas as pd
import matplotlib.pyplot as plt
from transformers import PaliGemmaForConditionalGeneration, PaliGemmaProcessor, BitsAndBytesConfig
from transformers import BitsAndBytesConfig
from PIL import Image
import re
我们已经准备好所有关键功能,所以让我们分析输出。>
>上面的功能创建了一个饼图,以可视化不同类别的支出分布。如果不存在有效的支出数据,它将生成一个空白的图形,并带有表示“无支出数据”的消息。否则,它将创建带有类别标签和百分比值的饼图,确保比例且良好的可视化。
步骤6:同时分析多个账单device = "cuda" if torch.cuda.is_available() else "cpu" # Model setup model_id = "google/paligemma2-10b-mix-448" bnb_config = BitsAndBytesConfig( load_in_8bit=True, # Change to load_in_4bit=True for even lower memory usage llm_int8_threshold=6.0, ) # Load model with quantization model = PaliGemmaForConditionalGeneration.from_pretrained( model_id, quantization_config=bnb_config ).eval() # Load processor processor = PaliGemmaProcessor.from_pretrained(model_id) # Print success message print("Model and processor loaded successfully!")
我们通常有多个账单要分析,因此让我们创建一个函数来同时处理所有账单。
用于一次分析多个账单,我们执行以下步骤:>
初始化存储:我们创建用于存储结果和图像的列表,将total_spending设置为0,并为类别总计定义字典。
def ensure_rgb(image: Image.Image) -> Image.Image: if image.mode != "RGB": image = image.convert("RGB") return image
- 打开并将图像转换为rgb。
- >将图像附加到列表中。
- 在收据中对商品进行分类。
- 更新总支出和类别的总计。
- >将提取的数据存储在结果列表中。
- 生成洞察力:我们创建一个支出分配饼图以及总支出的摘要。
- 返回结果:最后,我们返回图像列表,帐单摘要的数据框架,总支出摘要和支出图表。
- >现在,我们已经制定了所有关键逻辑函数。接下来,我们致力于使用Gradio构建Interactive UI。
- >上面的代码创建一个结构化的gradio ui,其中具有用于多个图像的文件上载程序,并为触发处理。提交后,上传帐单图像显示在画廊中,提取的数据显示在表中,总支出总结在文本中,并生成了支出分配饼图。
该功能将用户输入连接到process_multiple_bills()函数,以确保无缝数据提取和可视化。最后,demo.launch()函数启动了用于实时互动的Gradio应用程序。
>
>我还尝试了两个基于图像的账单(亚马逊购物发票)的演示,并得到以下结果。
注意:VLMS发现很难提取数字,这有时可能导致结果不正确。例如,它提取了以下第二账单的错误总金额。这是可以使用较大型号或简单地对现有模型进行微调来纠正。
>结论
在本教程中,我们使用Paligemma 2 Mix构建了一个AI驱动的多个Bill Scanner,这可以帮助我们从收据中提取和分类支出。我们使用Paligemma 2 Mix的视觉语言功能来进行OCR和分类,以毫不费力地分析支出见解。我鼓励您将本教程适应您自己的用例。以上是Paligemma 2 Mix:Demo OCR项目的指南的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

本文比较了诸如Chatgpt,Gemini和Claude之类的顶级AI聊天机器人,重点介绍了其独特功能,自定义选项以及自然语言处理和可靠性的性能。

文章讨论了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的写作助手,重点介绍了其独特的内容创建功能。它认为Jasper在SEO优化方面表现出色,而AI工具有助于保持音调的组成

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

本文评论了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高级AI语音生成器,重点介绍其功能,语音质量和满足不同需求的适用性。
