使用Indion LLMS建造印地语文档的RAG管道-人工智能-PHP中文网

数据清洁和解析

网络刮擦

数据清洁

首页

科技周边

人工智能

使用Indion LLMS建造印地语文档的RAG管道

Jennifer Aniston

Mar 18, 2025 am 11:57 AM

namaste！我是印度人，我们经历了四个不同的季节：冬季，夏季，季风和秋天。但是你知道我真正的恐惧吗？税收季节！

与往常一样，今年，我对印度的所得税法规和文书工作搏斗，以最大程度地利用我的法律储蓄。我吞噬了无数的视频和文档 - 有些是英语的，有些是印地语的 - 寻找答案。在截止日期之前仅48小时，我意识到自己已经没有时间了。我拼命希望有一个快速，语言不足的解决方案。

虽然检索增强发电（RAG）似乎是理想的，但大多数教程和模型仅集中在英语上。非英语内容在很大程度上被忽略了。那是启发灵感的时候：我可以专门为印度内容构建一条抹布管道 - 一个能够使用印地语文档回答问题的抹布。因此，我的项目开始了！

COLAB笔记本：对于那些喜欢动手方法的人，可以在COLAB笔记本中获得完整的代码[链接到COLAB笔记本]。建议使用T4 GPU环境。

让我们潜入！

使用Indion LLMS建造印地语文档的RAG管道

关键学习目标：

构建一个完整的破布管道，用于处理印地语税收文件。
用于Web刮擦，数据清洁和构造NLP的印地语文本的主技术。
Leverage指示LLMS可以为印度语言构建抹布管道，从而改善多语言文档处理。
使用多语言E5和Airavata等开源模型在印地语中进行嵌入和文本生成。
配置和管理Chromadb，以在抹布系统中进行有效的矢量存储和检索。
通过使用印地语抹布管道来获得文档摄入，检索和问题回答的实用经验。

本文是数据科学博客马拉松的一部分。

目录：

学习目标
数据获取：收集印地语税收信息
模型选择：选择适当的嵌入和生成模型
设置向量数据库
记录摄入和检索
与Airavata回答
测试和评估
结论
常见问题

数据获取：采购印地语税收信息

我的旅程始于数据收集。我从新闻文章和网站上收集了印地语所得税信息，包括常见问题解答和非结构化文本，涵盖了税收减免部分，常见问题解答和相关形式。最初的URL是：

 <code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>

登录后复制

数据清洁和解析

涉及数据准备：

网络刮擦
数据清洁

让我们检查每个步骤。

网络刮擦

我使用了markdown-crawler ，这是一个最喜欢的网络刮擦库。使用：

 <code>!pip install markdown-crawler !pip install markdownify</code>

登录后复制

markdown-crawler将网站解析为Markdown，将它们存储在.md文件中。我们将max_depth设置为0，以避免爬行链接页面。

这是刮擦功能：

 <code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>

登录后复制

这将Markdown文件保存到incometax_documents文件夹中。

数据清洁

一个解析器读取Markdown文件并将其分为部分。如果您的数据已预处理，请跳过此。

我们使用markdown和BeautifulSoup ：

 <code>!pip install beautifulsoup4 !pip install markdown</code>

登录后复制

导入标记
来自BS4进口美丽的小组

＃...（read_markdown_file函数保持不变）...

＃...（pass_section函数保持不变）...

＃...（代码处理所有.md文件并存储在传递_sections中的代码保持不变）...

登录后复制

数据现在是清洁的，并在passed_sections中进行了组织。更长的内容可能需要块，以保持嵌入模型令牌限制（512），但由于相对较短的部分，此处省略了。请参阅笔记本块代码。

（响应的其余部分将遵循类似的汇总和解释所提供的文本，维护图像位置和格式的模式。由于输入的长度，这将在后续响应中提供。）

以上是使用Indion LLMS建造印地语文档的RAG管道的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

Java教程

1671

CakePHP 教程

1428

Laravel 教程

1329

PHP教程

1276

C# 教程

1256

显示更多

Related knowledge

如何使用AGNO框架构建多模式AI代理？ Apr 23, 2025 am 11:30 AM

在从事代理AI时，开发人员经常发现自己在速度，灵活性和资源效率之间进行权衡。我一直在探索代理AI框架，并遇到了Agno（以前是Phi-

如何在SQL中添加列？ - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句：动态地将列添加到数据库在数据管理中，SQL的适应性至关重要。需要即时调整数据库结构吗？ Alter表语句是您的解决方案。本指南的详细信息添加了Colu

OpenAI以GPT-4.1的重点转移，将编码和成本效率优先考虑 Apr 16, 2025 am 11:37 AM

该版本包括三种不同的型号，GPT-4.1，GPT-4.1 MINI和GPT-4.1 NANO，标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

超越骆驼戏：大型语言模型的4个新基准 Apr 14, 2025 am 11:09 AM

陷入困境的基准：骆驼案例研究 2025年4月上旬，梅塔（Meta）揭开了Llama 4套件的模特套件，具有令人印象深刻的性能指标，使他们对GPT-4O和Claude 3.5 Sonnet等竞争对手有利地定位。伦斯的中心

Andrew Ng的新简短课程 Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量：深入研究安德鲁·NG的新课程想象一个未来，机器可以完全准确地理解和回答您的问题。这不是科幻小说；多亏了AI的进步，它已成为R

多动症游戏，健康工具和AI聊天机器人如何改变全球健康 Apr 14, 2025 am 11:27 AM

视频游戏可以缓解焦虑，建立焦点或支持多动症的孩子吗？随着医疗保健在全球范围内挑战，尤其是在青年中的挑战，创新者正在转向一种不太可能的工具：视频游戏。现在是世界上最大的娱乐印度河之一

火箭发射模拟和分析使用Rocketpy -Analytics Vidhya Apr 19, 2025 am 11:12 AM

模拟火箭发射的火箭发射：综合指南本文指导您使用强大的Python库Rocketpy模拟高功率火箭发射。我们将介绍从定义火箭组件到分析模拟的所有内容

Google揭示了下一个2025年云上最全面的代理策略 Apr 15, 2025 am 11:14 AM

双子座是Google AI策略的基础双子座是Google AI代理策略的基石，它利用其先进的多模式功能来处理和生成跨文本，图像，音频，视频和代码的响应。由DeepM开发

See all articles

使用Indion LLMS建造印地语文档的RAG管道

数据清洁和解析

网络刮擦

数据清洁

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题