建立用于产品成分分析的多模式代理-人工智能-PHP中文网

本教程将指导您通过：

首页

科技周边

人工智能

建立用于产品成分分析的多模式代理

Joseph Gordon-Levitt

Mar 09, 2025 am 11:28 AM

用多模式AI代理解锁产品成分的秘密！厌倦了解密的复杂成分列表？本文向您展示了如何使用Gemini 2.0，Phidata和Tavily Web搜索来构建功能强大的产品成分分析仪。告别耗时的个人成分搜索，并向即时，可行的见解！

键学习成果

本教程将指导您通过：

设计多模式AI代理体系结构利用Phidata和Gemini 2.0进行视觉语言任务。

集成坦维利的Web搜索以在您的代理工作流程中进行增强的上下文和信息检索。
构建产品成分分析仪代理，该代理专业结合图像处理和网络搜索以详细的产品分析。
掌握制作有效系统提示和说明的艺术，以优化多模式场景中的代理性能。
>开发一个用户友好的简化UI，以实时图像分析，营养信息和个性化的健康建议。

>本文是数据科学博客马拉松的一部分。 > 目录的表

了解多模式系统

>多模式系统旨在同时处理和解释多种数据类型，包括文本，图像，音频和视频。诸如Gemini 2.0 Flash，GPT-4O，Claude Sonnet 3.5和Pixtral-12b Excel之类的视觉语言模型在识别这些模式之间的复杂关系，从而从复杂的输入中提取了宝贵的知识。本文重点介绍了分析图像并生成文本解释的视觉模型。这些系统无缝将计算机视觉和自然语言处理融合，以根据用户提示来解释视觉信息。

现实世界多模式应用

多模式系统正在彻底改变各种行业：

财务：

通过拍摄产品标签，> 电子商务：
教育：
医疗保健：

>向多模式剂的转变代表了AI相互作用的显着进步。这就是为什么它们如此有效：

>同时处理视觉和文本数据会导致更精确和上下文富裕的响应。
复杂的信息被简化，使得更广泛的受众可以轻松访问。
>

构建产品成分分析仪代理>

Build a Multimodal Agent for Product Ingredient Analysis

>让我们逐步构建产品成分分析代理：>

步骤1：设置依赖项

> 我们需要：

gemini 2.0 Flash：用于强大的多模式处理。

tavely搜索：用于无缝的Web搜索集成。

简化：创建一个用户友好的Web应用程序。

步骤2：API设置和配置

!pip install phidata google-generativeai tavily-python streamlit pillow

登录后复制

从：

获取API键 Gemini API键：

https://www.php.cn/link/link/feacyc4a1c91eb74bfce13cb7c052c2c233b

tavily api键：

>步骤3：系统提示和说明

明确的说明对于最佳LLM性能至关重要。我们将定义代理人的角色和责任：

from phi.agent import Agent
from phi.model.google import Gemini # needs a api key
from phi.tools.tavily import TavilyTools # also needs a api key

import os
TAVILY_API_KEY = "<replace-your-api-key>"
GOOGLE_API_KEY = "<replace-your-api-key>"
os.environ['TAVILY_API_KEY'] = TAVILY_API_KEY
os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY</replace-your-api-key></replace-your-api-key>

登录后复制

步骤4：定义代理对象>

> Phidata代理被配置为根据系统提示和说明进行处理和操作。 Gemini 2.0 Flash用作推理模型，并且集成了Tavily搜索以进行有效的Web搜索。

SYSTEM_PROMPT = """
You are an expert Food Product Analyst specialized in ingredient analysis and nutrition science. 
Your role is to analyze product ingredients, provide health insights, and identify potential concerns by combining ingredient analysis with scientific research. 
You utilize your nutritional knowledge and research works to provide evidence-based insights, making complex ingredient information accessible and actionable for users.
Return your response in Markdown format. 
"""

INSTRUCTIONS = """
* Read ingredient list from product image 
* Remember the user may not be educated about the product, break it down in simple words like explaining to 10 year kid
* Identify artificial additives and preservatives
* Check against major dietary restrictions (vegan, halal, kosher). Include this in response. 
* Rate nutritional value on scale of 1-5
* Highlight key health implications or concerns
* Suggest healthier alternatives if needed
* Provide brief evidence-based recommendations
* Use Search tool for getting context
"""

登录后复制

步骤5：多模式图像处理

提供图像路径或URL以及提示来启动分析。使用两种方法的示例在原始文章中提供了。

步骤6＆7：简化Web应用程序开发

agent = Agent(
    model = Gemini(),
    tools = [TavilyTools()],
    markdown=True,
    system_prompt = SYSTEM_PROMPT,
    instructions = INSTRUCTIONS
)

登录后复制

（原始文章中的详细代码）

> 创建一个简化的应用程序，以提供一个用户友好的接口，以进行图像上传，分析和结果显示。该应用程序包括示例产品，图像上传和实时照片捕获的选项卡。图像调整大小和缓存是为最佳性能实施的。

基本链接

完整代码：[insert github链接在此处]

>部署的应用程序：[插入部署的应用链接在此处] >

结论

多模式AI代理正在改变我们与复杂信息的互动和理解的方式。产品成分分析仪展示了将视觉，语言和网络搜索相结合以提供可访问的，可操作的见解的力量。

>常见问题

Q1。开源多模式视觉语言模型：llava，pixtral-12b，多模式-GPT，NVILA和QWEN是示例。
Q2。 Llama 3多模式吗？：是的，Llama 3和Llama 3.2视觉模型是多模式的。
Q3。多模式LLM与多模式代理： llm处理多模式数据；代理使用LLM和其他工具来执行任务并根据多模式输入做出决策。

以上是建立用于产品成分分析的多模式代理的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1652

CakePHP 教程

1413

Laravel 教程

1304

PHP教程

1251

C# 教程

1224

显示更多

Related knowledge

开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2：多模式和移动AI的飞跃 Meta最近公布了Llama 3.2，这是AI的重大进步，具有强大的视觉功能和针对移动设备优化的轻量级文本模型。以成功为基础

10个生成AI编码扩展，在VS代码中，您必须探索 Apr 13, 2025 am 01:14 AM

嘿，编码忍者！您当天计划哪些与编码有关的任务？在您进一步研究此博客之前，我希望您考虑所有与编码相关的困境，这是将其列出的。完毕？ - 让＆＃8217

AV字节：Meta＆＃039; llama 3.2，Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观：进步，道德考虑和监管辩论的旋风。 OpenAI，Google，Meta和Microsoft等主要参与者已经释放了一系列更新，从开创性的新车型到LE的关键转变

向员工出售AI策略：Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。这不是短暂的趋势。这是整合到P中的新操作范式

GPT-4O vs OpenAI O1：新的Openai模型值得炒作吗？ Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力，使其可以通过问题进行思考

视觉语言模型（VLMS）的综合指南 Apr 12, 2025 am 11:58 AM

介绍想象一下，穿过美术馆，周围是生动的绘画和雕塑。现在，如果您可以向每一部分提出一个问题并获得有意义的答案，该怎么办？您可能会问：“您在讲什么故事？

阅读AI索引2025：AI是您的朋友，敌人还是副驾驶？ Apr 11, 2025 pm 12:13 PM

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它：认知（了解正在发生的事情）、欣赏（看到好处）、接纳（面对挑战）和责任（弄清我们的责任）。认知：人工智能无处不在，并且发展迅速我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进，在数学和复杂思维测试中取得了优异的成绩，而就在一年前，它们还在这些测试中惨败。想象一下，人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年

如何在SQL中添加列？ - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句：动态地将列添加到数据库在数据管理中，SQL的适应性至关重要。需要即时调整数据库结构吗？ Alter表语句是您的解决方案。本指南的详细信息添加了Colu

See all articles

建立用于产品成分分析的多模式代理

本教程将指导您通过：

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题