目次
重要な学習成果
ホームページ テクノロジー周辺機器 AI 製品成分分析のためのマルチモーダルエージェントを構築します

製品成分分析のためのマルチモーダルエージェントを構築します

Mar 09, 2025 am 11:28 AM

マルチモーダルAIエージェントを使用して、製品成分の秘密のロックを解除してください! 複雑な成分リストを解読するのにうんざりしていませんか?この記事では、Gemini 2.0、Phidata、およびTavily Web検索を使用して、強力な製品成分アナライザーを構築する方法について説明します。 時間のかかる個々の成分の検索に別れを告げ、インスタントの実用的な洞察にこんにちは!

重要な学習成果

このチュートリアルでは、このチュートリアルで説明します

ビジョン言語タスクのためにPhidataとGemini 2.0を活用するマルチモーダルAIエージェントアーキテクチャの設計。

エージェントワークフロー内の強化されたコンテキストと情報の検索のタビリーWeb検索の統合。
    画像処理とWeb検索を巧みに組み合わせた製品成分アナライザーエージェントの構築詳細な製品分析。
  • マルチモーダルシナリオでエージェントのパフォーマンスを最適化するための効果的なシステムプロンプトと指示の作成の技術を習得します。
  • リアルタイムの画像分析、栄養情報、およびパーソナライズされた健康に関する推奨事項のために、ユーザーフレンドリーな流線UIを開発します。
  • この記事は、データサイエンスブログの一部です
  • 目次

マルチモーダルシステムの理解 実際のマルチモーダルアプリケーション マルチモーダルエージェントの力

製品成分アナライザーエージェントの構築 必須リンク

    結論
  • よくある質問
  • マルチモーダルシステムの理解
  • マルチモーダルシステムは、テキスト、画像、オーディオ、ビデオなど、多様なデータ型を同時に処理および解釈するように設計されています。 Gemini 2.0 Flash、GPT-4O、Claude Sonnet 3.5、Pixtral-12Bなどのビジョン言語モデルは、これらのモダリティ間の複雑な関係を認識し、複雑な入力から貴重な知識を抽出します。 この記事では、画像を分析し、テキストの説明を生成するビジョン言語モデルに焦点を当てています。 これらのシステムは、コンピュータービジョンと自然言語処理をシームレスにブレンドして、ユーザープロンプトに基づいて視覚情報を解釈します。
  • 実世界のマルチモーダルアプリケーション
  • マルチモーダルシステムは、さまざまな産業に革命をもたらしています

財務:スクリーンショットを撮るだけで複雑な金融条件を即座に理解します。

eコマース:

製品ラベルを撮影して、詳細な成分分析と健康の洞察を取得します。

教育:教科書からの複雑な図と概念の簡略化された説明を得る。

Healthcare:医療報告書と処方ラベルの明確な説明を受け取ります。

  • マルチモーダルエージェントの力
  • マルチモーダルエージェントへのシフトは、AI相互作用の大きな進歩を表しています。 これらがとても効果的である理由は次のとおりです
    • 視覚データとテキストデータの同時処理は、より正確でコンテキストが豊富な応答につながります。
    • 複雑な情報が簡素化されているため、より多くの視聴者が簡単にアクセスできます。
    • ユーザーは、包括的な分析のために単一の画像をアップロードし、手動の成分検索の必要性を排除します。
    • Web検索と画像分析を組み合わせると、より完全で信頼できる洞察が提供されます。
    • 製品成分アナライザーエージェントの構築

    製品成分分析エージェントを段階的に構築しましょう

    Build a Multimodal Agent for Product Ingredient Analysisステップ1:依存関係のセットアップ

    必要なのは

    です gemini 2.0フラッシュ:強力なマルチモーダル処理用。

    タビリー検索:シームレスなWeb検索統合のため。

      Phidata:エージェントシステムを調整し、ワークフローを管理する
    • retrienlit:ユーザーフレンドリーなWebアプリケーションを作成します
    • ステップ2:APIのセットアップと構成apiキーを取得します:
    gemini apiキー:
!pip install phidata google-generativeai tavily-python streamlit pillow
ログイン後にコピー
https://www.php.cn/link/feac4a1c91eb74bfce13cb7c052c233b

tavily apiキー:

https://www.php.cn/link/c73ff6dceadedf3652d678cd790ff167

ステップ4:エージェントオブジェクトの定義
from phi.agent import Agent
from phi.model.google import Gemini # needs a api key
from phi.tools.tavily import TavilyTools # also needs a api key

import os
TAVILY_API_KEY = "<replace-your-api-key>"
GOOGLE_API_KEY = "<replace-your-api-key>"
os.environ['TAVILY_API_KEY'] = TAVILY_API_KEY
os.environ['GOOGLE_API_KEY'] = GOOGLE_API_KEY</replace-your-api-key></replace-your-api-key>
ログイン後にコピー

Phidataエージェントは、マークダウンを処理し、システムプロンプトと命令に基づいて動作するように構成されています。 Gemini 2.0フラッシュは推論モデルとして使用され、効率的なWeb検索のためにTavily Searchが統合されています。

ステップ5:マルチモーダル画像処理

SYSTEM_PROMPT = """
You are an expert Food Product Analyst specialized in ingredient analysis and nutrition science. 
Your role is to analyze product ingredients, provide health insights, and identify potential concerns by combining ingredient analysis with scientific research. 
You utilize your nutritional knowledge and research works to provide evidence-based insights, making complex ingredient information accessible and actionable for users.
Return your response in Markdown format. 
"""

INSTRUCTIONS = """
* Read ingredient list from product image 
* Remember the user may not be educated about the product, break it down in simple words like explaining to 10 year kid
* Identify artificial additives and preservatives
* Check against major dietary restrictions (vegan, halal, kosher). Include this in response. 
* Rate nutritional value on scale of 1-5
* Highlight key health implications or concerns
* Suggest healthier alternatives if needed
* Provide brief evidence-based recommendations
* Use Search tool for getting context
"""
ログイン後にコピー

分析を開始するために、画像パスまたはURLをプロンプトとともに提供します。 両方のアプローチを使用した例は、元の記事で提供されています。 ステップ6&7:Webアプリ開発を合理化する

(元の記事の詳細なコード)

retrylitアプリケーションが作成され、画像のアップロード、分析、および結果表示用のユーザーフレンドリーなインターフェイスが提供されます。 アプリには、製品、画像のアップロード、ライブ写真キャプチャなどのタブが含まれています。 最適なパフォーマンスのために、画像のサイズ変更とキャッシュが実装されています
agent = Agent(
    model = Gemini(),
    tools = [TavilyTools()],
    markdown=True,
    system_prompt = SYSTEM_PROMPT,
    instructions = INSTRUCTIONS
)
ログイン後にコピー

本質的なリンク

完全なコード:[GitHubリンクをこちらに挿入]

展開アプリ:[ここに展開されたアプリリンクを挿入]

結論

マルチモーダルAIエージェントは、複雑な情報との対話と理解をどのように変換し、理解しています。 製品成分アナライザーは、ビジョン、言語、およびWeb検索を組み合わせて、アクセス可能で実用的な洞察を提供する力を示しています。

よくある質問

  • Q1。オープンソースのマルチモーダルビジョンモデルモデル:llava、pixtral-12b、multimodal-gpt、nvila、およびqwenは例です。
  • q2。ラマ3マルチモーダルですか?:
  • はい、llama 3およびllama 3.2ビジョンモデルはマルチモーダルです。 q3。マルチモーダルLLM vs.マルチモーダルエージェント:
  • LLMプロセスマルチモーダルデータ。エージェントはLLMSおよびその他のツールを使用してタスクを実行し、マルチモーダル入力に基づいて決定を下します。
  • プレースホルダーを実際のAPIキーに置き換えることを忘れないでください。 完全で機能的なガイドのために、完全なコードと展開されたアプリリンクを追加する必要があります。

以上が製品成分分析のためのマルチモーダルエージェントを構築しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Meta Llama 3.2を始めましょう - 分析Vidhya Meta Llama 3.2を始めましょう - 分析Vidhya Apr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

10生成AIコーディング拡張機能とコードのコードを探る必要があります 10生成AIコーディング拡張機能とコードのコードを探る必要があります Apr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

従業員へのAI戦略の販売:Shopify CEOのマニフェスト 従業員へのAI戦略の販売:Shopify CEOのマニフェスト Apr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

AVバイト:Meta&#039; s llama 3.2、GoogleのGemini 1.5など AVバイト:Meta&#039; s llama 3.2、GoogleのGemini 1.5など Apr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? GPT-4o vs Openai O1:新しいOpenaiモデルは誇大広告に値しますか? Apr 13, 2025 am 10:18 AM

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

ビジョン言語モデル(VLM)の包括的なガイド ビジョン言語モデル(VLM)の包括的なガイド Apr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

SQLに列を追加する方法は? - 分析Vidhya SQLに列を追加する方法は? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか? AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか? Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

See all articles