Autorag:使用開源Automl優化抹布管道
>最近幾個月,檢索型發電一代(RAG)在普及中廣受歡迎,作為一種將大型語言模型與外部知識相結合的強大技術。但是,選擇合適的抹布管道(索引,嵌入模型,塊方法,問答方法)可能會令人生畏。使用無數可能的配置,您如何確定哪種管道最適合您的數據和用例?那就是Autorag進來的地方。
學習目標
- 了解自動架的基本原理及其如何自動化抹布管道優化。
- >了解Autorag如何系統地評估數據的不同抹布配置。
> >探索Autorag的關鍵功能,包括數據創建,管道實驗和部署。 - 逐步進行設置和使用Autorag。
- >發現如何使用Autorag的自動化工作流程部署表現最佳的RAG管道。
>本文是> > data Science Blogathon的一部分。 目錄的目錄
>什麼是Autorag? autorag結論- 常見問題
- 什麼是autorag?
- autorag是一種開源,自動化的機器學習(AUTOML)工具,專注於RAG。它可以系統地測試並評估自己數據集上不同的RAG管道組件,以確定哪種配置最適合您的用例。通過自動運行實驗(以及處理數據創建,塊,QA數據集生成和管道部署之類的任務),Autorag可以節省您的時間和麻煩。
- >
為什麼Autorag?
- >許多抹布管道和模塊:有許多可能的方法來配置抹布系統 - 不同的文本大小,嵌入式,提示模板,檢索器模塊等。 >
- 耗時的實驗:手動測試自己數據上的每個管道都很麻煩。大多數人從不這樣做,這意味著他們可能會錯過更好的性能或更快的推斷。 為您的數據量身定制的 >
- :通用基準可能無法反映管線在唯一的語料庫上的性能。 Autorag通過讓您根據自己的數據得出的真實或合成QA對來消除猜測。 鍵功能
>
數據創建- :autorag允許您從自己的原始文檔,PDF文件或其他文本源創建抹布評估數據。只需上傳您的文件,將它們解析到RAW.PARQUET,將它們切成corpus.parquet,然後自動生成QA數據集。
- > 優化 :Autorag自動運行實驗(超參數調諧,管道選擇等),以發現數據最佳的抹布管道。它測量了與您的QA數據集的準確性,相關性和事實正確性之類的指標,以確定表現最高的設置。
- >部署 :確定了最佳管道後,Autorag便直接使部署。單個YAML配置可以將最佳管道部署在燒瓶服務器或您選擇的其他環境中。
- >用Gradio在擁抱面孔的空間上構建
> >自動型如何優化抹布管道
>手持QA數據集,Autorag可以自動:
測試多個獵犬類型> (例如,基於向量的基於矢量,關鍵字,混合)。
>- >探索不同的塊尺寸和重疊策略。
- >評估嵌入模型(例如,OpenAi嵌入,擁抱的臉型變壓器)。
- >調音提示模板查看哪個產生最準確或相關的答案。 >使用精確匹配,F1分數或自定義域特異性指標等指標來衡量QA數據集的性能。
-
實驗完成後,您將擁有:
- >>排名的管道配置列表按性能指標排序。
- >清晰的見解模塊或參數在其中為您的數據帶來最佳結果。
- 自動生成的最佳管道您可以直接從Autorag部署。 部署最佳的抹布管道
>準備上線時,Autorag精確部署:
單元配置> - :生成一個描述您的管道組件的YAML文件(reteriever,嵌入式,生成器模型等)。
在燒瓶服務器上運行
- > :在本地或基於雲的燒瓶應用程序上託管您的最佳管道,以便於與現有軟件堆棧進行簡化集成。
> gradio/hugging face空間 - :或者,在
> no-fuss,互動demo 的gradio接口上部署在擁抱面積上。 - > 為什麼使用Autorag? >讓我們現在看看為什麼您應該嘗試Autorag:
。
通過針對您的唯一數據和需求進行優化的管道,提高性能- 。
- >無縫集成 在擁抱面孔的gradio上進行快速演示或生產部署。
- >開源和社區驅動,因此您可以自定義或擴展以符合您的確切要求。
> - autorag已經在github上流行了 - 加入社區,看看該工具如何徹底改變您的抹布工作流程。 入門
- >>在GitHub上查看Autorag: 探索源代碼,文檔和社區示例。
>
- 貢獻
- :作為一個開放源代碼項目,Autorag歡迎PRS,發行報告和功能建議。 通過自動化數據創建,管道實驗和部署,Autorag刪除了構建抹布系統的猜測。如果您想要一種快速,可靠的方法來找到適合數據的最佳抹布配置,請給Autorag旋轉並讓結果自己說明。 逐步演練
-
數據創建工作流程,結合了您共享的屏幕截圖。本指南將幫助您解析PDF,縮小數據,生成QA數據集並為進一步的RAG實驗做準備。
步驟1:輸入OpenAI API鍵
- 打開Autorag接口。 在“自動數據創建”部分(屏幕截圖#1)中,您會看到一個提示
- >在文本框中粘貼API鍵,然後按Enter。 輸入後,狀態應從“未設置”變為“有效”(或類似),確認密鑰已被識別。
- >
- 注意:Autorag不存儲或記錄您的API鍵。 >
>向下滾動至“ 1. parse your pdf文件”(屏幕截圖#2)。
- >單擊“上傳文件”以從計算機中選擇一個或多個PDF文檔。示例屏幕截圖顯示了一個2.1 MB PDF文件,名為66EB856E019E…IC…PDF。
- 從下拉列表中選擇一種解析方法。
- 常見選項包括pdfminer,pdfplumber和pymupdf。 >
- 每個解析器都有優勢和局限性,因此,如果您遇到解析問題,請考慮測試多種方法。
- >單擊“運行解析”(或等效的動作按鈕)。 Autorag將讀取您的PDF並將其轉換為一個Raw.Parquet文件。 監控文本框以進行進度更新。
- 解析完成後,單擊“下載raw.parquet”以在本地或工作空間保存結果。
- 提示:
- RAW.PARQUET文件是您分析的文本數據。您可以使用任何支持Parquet的工具進行檢查。 >
步驟3:塊raw.parquet
移動到“ 2。塊您的raw.parquet”(屏幕截圖#3)。
>如果使用了上一個步驟,則可以選擇“使用先前的raw.parquet”來自動加載文件。否則,單擊“上傳”以帶上您自己的.parquet文件。
>- 選擇塊方法:
- >
>令牌:由指定數量的令牌數量的塊。
- 句子:按句子邊界劃分文本。 >
- 語義:可能會使用基於嵌入的方法來進行塊與語義相似的文本。
- :可以在多個層次上縮小更多顆粒狀段。 現在,將滑塊(例如256個令牌)和重疊(例如32個令牌)設置為塊大小。重疊有助於跨塊邊界保存上下文。
- > 單擊“ 運行塊
- > textbox
- 以獲取確認或狀態更新。 完成後,“ >下載corpus.parquet
- ”以獲取新塊的數據集。
- 為什麼要塊?
塊將您的文本分解為可管理的作品,檢索方法可以有效地處理。它可以平衡上下文與相關性,以使您的抹布系統不會超過令牌限製或稀釋主題焦點。
> 創建一個QA數據集
在“ 3”中。從您的corpus.parquet”部分(屏幕截圖#4)創建QA數據集,上傳或選擇您的corpus.parquet。 選擇一個質量質量質量質量:> 態
快速- :優先考慮速度並降低成本,可能是以更豐富的細節為代價的。
- 高級 :可能會產生更徹底的,上下文豐富的Q&A對,但可能更昂貴或更慢。
- > 選擇數據創建的模型:
- > >示例選項包括GPT-4O-MINI或GPT-4O(您的接口可能列出其他型號)。
QA對的數量:
- >
- 滑塊通常從20到150。對於第一次運行,將其保持較小(例如20或30)以限製成本。
批處理大小到Openai模型:
默認為16,意思是每個批次請求16個問答對。如果您看到速率限制錯誤,請降低它。> - 單擊“
”。狀態更新出現在文本框中。 完成後,
>下載- qa.parquet
成本警告:生成問答數據調用OpenAI API,這會產生使用費。如果您打算運行大批批量,請在OpenAI賬單頁面上監視您的使用。 >
步驟5:使用QA數據集 現在您有:
> corpus.parquet(您的塊狀文檔數據)
> QA.Parquet(自動生成問答對)
>
>您可以將它們饋入Autorag的評估和優化工作流程:
評估多個抹布配置> - - 測試不同的檢索器,塊大小和嵌入模型,以查看哪種組合最佳地回答QA.Parquet中的問題。
- >查看性能指標
- (確切的匹配,F1或特定域的標準)以識別最佳管道。 通過單個YAML配置文件,
-
>步驟6:加入數據創建工作室候補名單(可選)
>>如果您想自動自動生成的QA數據集 - 編輯問題,濾除某些主題或添加特定領域的準則,Autorag提供了數據創建工作室。單擊“加入Data Creation Studio Waitlist”,直接在接口中註冊候補名單。
結論鑰匙要點
- >它允許用戶創建和評估根據其數據需求量身定制的自定義數據集。
- 該工具簡化了僅使用單個YAML配置來部署最佳管道。
- > Autorag的開源自然促進了社區驅動的改進和定制。
- 常見問題
- > Q1。什麼是autorag,為什麼有用? AutOrag是一種開源自動工具,可通過自動化配置實驗來優化檢索型生成(RAG)管道。
Q6。生成問答對的費用是多少?成本取決於語料庫的大小,問答對數和OpenAI模型選擇。從小批量開始以估算費用。 >本文所示的媒體不歸Analytics Vidhya擁有,並由作者的酌情決定使用。
以上是Autorag:使用開源Automl優化抹布管道的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年
