目錄
數據清潔和解析
網絡刮擦
數據清潔
首頁 科技週邊 人工智慧 使用Indion LLMS建造印地語文檔的RAG管道

使用Indion LLMS建造印地語文檔的RAG管道

Mar 18, 2025 am 11:57 AM

namaste!我是印度人,我們經歷了四個不同的季節:冬季,夏季,季風和秋天。但是你知道我真正的恐懼嗎?稅收季節!

與往常一樣,今年,我對印度的所得稅法規和文書工作搏鬥,以最大程度地利用我的法律儲蓄。我吞噬了無數的視頻和文檔 - 有些是英語的,有些是印地語的 - 尋找答案。在截止日期之前僅48小時,我意識到自己已經沒有時間了。我拼命希望有一個快速,語言不足的解決方案。

雖然檢索增強發電(RAG)似乎是理想的,但大多數教程和模型僅集中在英語上。非英語內容在很大程度上被忽略了。那是啟發靈感的時候:我可以專門為印度內容構建一條抹布管道 - 一個能夠使用印地語文檔回答問題的抹布。因此,我的項目開始了!

COLAB筆記本:對於那些喜歡動手方法的人,可以在COLAB筆記本中獲得完整的代碼[鏈接到COLAB筆記本]。建議使用T4 GPU環境。

讓我們潛入!

使用Indion LLMS建造印地語文檔的RAG管道

關鍵學習目標:

  • 構建一個完整的破布管道,用於處理印地語稅收文件。
  • 用於Web刮擦,數據清潔和構造NLP的印地語文本的主技術。
  • Leverage指示LLMS可以為印度語言構建抹布管道,從而改善多語言文檔處理。
  • 使用多語言E5和Airavata等開源模型在印地語中進行嵌入和文本生成。
  • 配置和管理Chromadb,以在抹布系統中進行有效的矢量存儲和檢索。
  • 通過使用印地語抹布管道來獲得文檔攝入,檢索和問題回答的實用經驗。

本文是數據科學博客馬拉鬆的一部分。

目錄:

  • 學習目標
  • 數據獲取:收集印地語稅收信息
  • 模型選擇:選擇適當的嵌入和生成模型
  • 設置向量數據庫
  • 記錄攝入和檢索
  • 與Airavata回答
  • 測試和評估
  • 結論
  • 常見問題

數據獲取:採購印地語稅收信息

我的旅程始於數據收集。我從新聞文章和網站上收集了印地語所得稅信息,包括常見問題解答和非結構化文本,涵蓋了稅收減免部分,常見問題解答和相關形式。最初的URL是:

 <code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>
登入後複製

數據清潔和解析

涉及數據準備:

  • 網絡刮擦
  • 數據清潔

讓我們檢查每個步驟。

網絡刮擦

我使用了markdown-crawler ,這是一個最喜歡的網絡刮擦庫。使用:

 <code>!pip install markdown-crawler !pip install markdownify</code>
登入後複製

markdown-crawler將網站解析為Markdown,將它們存儲在.md文件中。我們將max_depth設置為0,以避免爬行鏈接頁面。

這是刮擦功能:

 <code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>
登入後複製

這將Markdown文件保存到incometax_documents文件夾中。

數據清潔

一個解析器讀取Markdown文件並將其分為部分。如果您的數據已預處理,請跳過此。

我們使用markdownBeautifulSoup

 <code>!pip install beautifulsoup4 !pip install markdown</code>
登入後複製
導入標記
來自BS4進口美麗的小組

#...(read_markdown_file函數保持不變)...

#...(pass_section函數保持不變)...

#...(代碼處理所有.md文件並存儲在傳遞_sections中的代碼保持不變)...
登入後複製

數據現在是清潔的,並在passed_sections中進行了組織。更長的內容可能需要塊,以保持嵌入模型令牌限制(512),但由於相對較短的部分,此處省略了。請參閱筆記本塊代碼。

(響應的其餘部分將遵循類似的匯總和解釋所提供的文本,維護圖像位置和格式的模式。由於輸入的長度,這將在後續響應中提供。)

以上是使用Indion LLMS建造印地語文檔的RAG管道的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
4 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1671
14
CakePHP 教程
1428
52
Laravel 教程
1329
25
PHP教程
1276
29
C# 教程
1256
24
如何使用AGNO框架構建多模式AI代理? 如何使用AGNO框架構建多模式AI代理? Apr 23, 2025 am 11:30 AM

在從事代理AI時,開發人員經常發現自己在速度,靈活性和資源效率之間進行權衡。我一直在探索代理AI框架,並遇到了Agno(以前是Phi-

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮 OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮 Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

超越駱駝戲:大型語言模型的4個新基準 超越駱駝戲:大型語言模型的4個新基準 Apr 14, 2025 am 11:09 AM

陷入困境的基準:駱駝案例研究 2025年4月上旬,梅塔(Meta)揭開了其Llama 4套件的模特,擁有令人印象深刻的性能指標,使他們對GPT-4O和Claude 3.5 Sonnet等競爭對手的良好定位。倫斯的中心

Andrew Ng的新簡短課程 Andrew Ng的新簡短課程 Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

多動症遊戲,健康工具和AI聊天機器人如何改變全球健康 多動症遊戲,健康工具和AI聊天機器人如何改變全球健康 Apr 14, 2025 am 11:27 AM

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya 火箭發射模擬和分析使用Rocketpy -Analytics Vidhya Apr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

Google揭示了下一個2025年雲上最全面的代理策略 Google揭示了下一個2025年雲上最全面的代理策略 Apr 15, 2025 am 11:14 AM

雙子座是Google AI策略的基礎 雙子座是Google AI代理策略的基石,它利用其先進的多模式功能來處理和生成跨文本,圖像,音頻,視頻和代碼的響應。由DeepM開發

See all articles