ホームページ テクノロジー周辺機器 AI RAGシステム用の8種類のチャンキング-AnalyticsVidhya

RAGシステム用の8種類のチャンキング-AnalyticsVidhya

Mar 06, 2025 pm 12:00 PM

検索された世代(RAG)でチャンキングの力を解き放つ:深いダイビング

大量のテキストデータを効率的に処理することは、堅牢かつ効果的な検索充電(RAG)システムを構築するために重要です。 この記事では、さまざまなチャンキング戦略を検討します。これは、AI搭載アプリケーションのパフォーマンスを最適化し、パフォーマンスを向上させるために不可欠です。 さまざまなアプローチを掘り下げ、それらの長所と短所を強調し、実用的な例を提供します。

目次

    ぼろきれは何ですか?
  • チャンキングの重要性
  • ラグアーキテクチャとチャンク
  • の理解 RAGシステムとの一般的な課題
  • 最適なチャンキング戦略の選択
  • 文字ベースのテキストチャンキング
  • langchainを使用した再帰文字テキストの分割
  • ドキュメント固有のチャンキング(HTML、Python、JSONなど)
  • LangchainとOpenaiでのセマンティックチャンキング
  • エージェントチャンキング(LLM駆動型チャンキング)
  • セクションベースのチャンキング
  • 強化された検索のためのコンテキストチャンキング
  • 長距離コンテキストを維持するための後期チャンキング
  • 結論
  • ぼろきれは何ですか?
  • ​​

チャンクは、大規模なテキストドキュメントをより小さく、より管理しやすいユニットに分割するプロセスです。 言語モデルにはコンテキストウィンドウが制限されているため、これはRAGシステムにとって不可欠です。 チャンクは、関連情報がこれらの制限内に残り、信号対雑音比を最大化し、モデルのパフォーマンスを改善することを保証します。 目標は、データを分割するだけでなく、そのプレゼンテーションをモデルに最適化して、検索性と精度を強化することです。 8 Types of Chunking for RAG Systems - Analytics Vidhya8 Types of Chunking for RAG Systems - Analytics Vidhyaなぜチャンキングが重要なのですか? Chromaの共同設立者であるAnton Troynikovは、コンテキストウィンドウ内の無関係なデータがアプリケーションの有効性を大幅に低下させることを強調しています。 チャンクは次のとおりです 8 Types of Chunking for RAG Systems - Analytics Vidhya

コンテキストウィンドウの制限を克服する:

サイズの制限のために重要な情報が失われないようにします。

信号対雑音比の改善:は、無関係なコンテンツをフィルターし、モデルの精度を向上させます。

検索効率の向上:

関連情報のより速く、より正確な検索を促進します。
  1. タスク固有の最適化:特定のアプリケーションニーズに合わせて戦略を調整することができます(例えば、要約対質問アンウェー)。
  2. ragアーキテクチャとチャンキング
  3. 8 Types of Chunking for RAG Systems - Analytics Vidhya

    RAGアーキテクチャには、3つの重要な段階が含まれます

    1. チャンキング:生データは、より小さく、意味のあるチャンクに分割されます
    2. 埋め込み:
    3. チャンクはベクトル埋め込みに変換されます。
    4. 検索&生成:
    5. 関連するチャンクはユーザークエリに基づいて取得され、LLMは取得された情報を使用して応答を生成します。 RAGシステムの課題

    RAGシステムはいくつかの課題に直面しています:

    検索の問題:
      関連情報の取得または不完全な取得。
    1. 生成の難しさ:
    2. 幻覚、無関係またはバイアス出力。
    3. 統合の問題:
    4. 取得した情報を一貫して組み合わせるのが難しい。
    5. 適切なチャンキング戦略の選択

    理想的なチャンキング戦略は、コンテンツタイプ、埋め込みモデル、および予想されるユーザークエリのいくつかの要因に依存します。 コンテンツの構造と密度、埋め込みモデルのトークンの制限、およびユーザーが尋ねる可能性のある質問の種類を考慮してください。

    1。キャラクターベースのテキストチャンキング

    この単純な方法は、意味の意味に関係なく、文字カウントに基づいてテキストを固定サイズのチャンクに分割します。 簡単ですが、多くの場合、文の構造とコンテキストを混乱させます。 Pythonを使用した例:

    2。 langchain

    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)
    ログイン後にコピー
    ログイン後にコピー
    を使用した再帰文字テキストの分割 このアプローチは、複数のセパレーター(たとえば、ダブルニューライン、シングルニューライン、スペースなど)を使用してテキストを再帰的に分割し、ターゲット文字サイズに最適化するために小さなチャンクをマージします。 キャラクターベースのチャンクよりも洗練されており、より良いコンテキストの保存を提供します。 Langchainを使用した例:

    3。ドキュメント固有のチャンキング

    # ... (LangChain installation and code as in the original example)
    ログイン後にコピー
    ログイン後にコピー
    この方法は、形式固有のセパレータを使用して、さまざまなドキュメント形式(HTML、Python、Markdownなど)にチャンクを適応させます。 これにより、チャンクがドキュメントの固有の構造を尊重することが保証されます。 PythonとMarkdownにLangchainを使用した例は、元の応答で提供されています。

    4。 LangchainとOpenaiでのセマンティックチャンキング

    セマンティックチャンキングは、セマンティックの意味に基づいてテキストを分割し、文の埋め込みなどのテクニックを使用して自然なブレークポイントを識別します。 このアプローチは、各チャンクが一貫したアイデアを表すことを保証します。ラングチェーンとオープン埋め込みを使用した例:

    5。エージェントチャンキング(LLM駆動型チャンキング)

    エージェントチャンキングはLLMを使用してテキスト内の自然なブレークポイントを識別し、より文脈的に関連するチャンクをもたらします。 このアプローチは、LLMの言語とコンテキストの理解を活用して、より意味のあるセグメントを作成します。 OpenAI APIを使用した例:

    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)
    ログイン後にコピー
    ログイン後にコピー

    6。セクションベースのチャンキング

    この方法では、ドキュメントの固有の構造(見出し、サブヘディング、セクション)を活用して、チャンクを定義します。これは、研究論文やレポートなどの適切に構造化されたドキュメントに特に効果的です。 トピックベースのチャンキングにPymupdfと潜在ディリクレの割り当て(LDA)を使用した例:

    # ... (LangChain installation and code as in the original example)
    ログイン後にコピー
    ログイン後にコピー

    7。コンテキストチャンキング

    コンテキストチャンキングは、各チャンク内のセマンティックコンテキストの保存に焦点を当てています。 これにより、取得された情報が一貫性があり、関連することが保証されます。 LangChainとカスタムプロンプトを使用した例:

    # ... (OpenAI API key setup and code as in the original example)
    ログイン後にコピー
    ログイン後にコピー

    8。遅いチャンキング

    ドキュメント全体に埋め込みを生成するまで、後期チャンキングはチャンキングを遅らせます。これにより、長距離のコンテキスト依存関係が保持され、埋め込みと検索の精度が向上します。 Jina Embeddingsモデルを使用した例:

    # ... (OpenAI API key setup and code as in the original example)
    ログイン後にコピー
    ログイン後にコピー

    結論

    効果的なチャンキングは、高性能のRAGシステムを構築するために最も重要です。チャンキング戦略の選択は、情報検索の品質と生成された応答の一貫性に大きな影響を与えます。 データの特性とアプリケーションの特定の要件を慎重に検討することにより、開発者はRAGシステムのパフォーマンスを最適化するために最も適切なチャンキング方法を選択できます。 各チャンク内のコンテキストの完全性と関連性の維持を常に優先することを忘れないでください。

以上がRAGシステム用の8種類のチャンキング-AnalyticsVidhyaの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AGNOフレームワークを使用してマルチモーダルAIエージェントを構築する方法は? AGNOフレームワークを使用してマルチモーダルAIエージェントを構築する方法は? Apr 23, 2025 am 11:30 AM

エージェントAIに取り組んでいる間、開発者は速度、柔軟性、リソース効率の間のトレードオフをナビゲートすることがよくあります。私はエージェントAIフレームワークを探索していて、Agnoに出会いました(以前はPhi-でした。

SQLに列を追加する方法は? - 分析Vidhya SQLに列を追加する方法は? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ラマドラマを超えて:大規模な言語モデル用の4つの新しいベンチマーク ラマドラマを超えて:大規模な言語モデル用の4つの新しいベンチマーク Apr 14, 2025 am 11:09 AM

問題のあるベンチマーク:ラマのケーススタディ 2025年4月上旬、MetaはLlama 4スイートのモデルを発表し、GPT-4oやClaude 3.5 Sonnetなどの競合他社に対して好意的に位置付けた印象的なパフォーマンスメトリックを誇っています。ラウンクの中心

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先します OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先します Apr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法 ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法 Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか? ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

Andrew Ngによる埋め込みモデルに関する新しいショートコース Andrew Ngによる埋め込みモデルに関する新しいショートコース Apr 15, 2025 am 11:32 AM

埋め込みモデルのパワーのロックを解除する:Andrew Ngの新しいコースに深く飛び込む マシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。 これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

Rocketpyを使用したロケットの起動シミュレーションと分析-AnalyticsVidhya Rocketpyを使用したロケットの起動シミュレーションと分析-AnalyticsVidhya Apr 19, 2025 am 11:12 AM

Rocketpy:A包括的なガイドでロケット発売をシミュレートします この記事では、強力なPythonライブラリであるRocketpyを使用して、高出力ロケット発売をシミュレートすることをガイドします。 ロケットコンポーネントの定義からシミュラの分析まで、すべてをカバーします

Googleは、次の2025年にクラウドで最も包括的なエージェント戦略を発表します Googleは、次の2025年にクラウドで最も包括的なエージェント戦略を発表します Apr 15, 2025 am 11:14 AM

GoogleのAI戦略の基礎としてのGemini Geminiは、GoogleのAIエージェント戦略の基礎であり、高度なマルチモーダル機能を活用して、テキスト、画像、オーディオ、ビデオ、コード全体で応答を処理および生成します。 DeepMによって開発されました

See all articles