目录
数据清洁和解析
网络刮擦
数据清洁
首页 科技周边 人工智能 使用Indion LLMS建造印地语文档的RAG管道

使用Indion LLMS建造印地语文档的RAG管道

Mar 18, 2025 am 11:57 AM

namaste!我是印度人,我们经历了四个不同的季节:冬季,夏季,季风和秋天。但是你知道我真正的恐惧吗?税收季节!

与往常一样,今年,我对印度的所得税法规和文书工作搏斗,以最大程度地利用我的法律储蓄。我吞噬了无数的视频和文档 - 有些是英语的,有些是印地语的 - 寻找答案。在截止日期之前仅48小时,我意识到自己已经没有时间了。我拼命希望有一个快速,语言不足的解决方案。

虽然检索增强发电(RAG)似乎是理想的,但大多数教程和模型仅集中在英语上。非英语内容在很大程度上被忽略了。那是启发灵感的时候:我可以专门为印度内容构建一条抹布管道 - 一个能够使用印地语文档回答问题的抹布。因此,我的项目开始了!

COLAB笔记本:对于那些喜欢动手方法的人,可以在COLAB笔记本中获得完整的代码[链接到COLAB笔记本]。建议使用T4 GPU环境。

让我们潜入!

使用Indion LLMS建造印地语文档的RAG管道

关键学习目标:

  • 构建一个完整的破布管道,用于处理印地语税收文件。
  • 用于Web刮擦,数据清洁和构造NLP的印地语文本的主技术。
  • Leverage指示LLMS可以为印度语言构建抹布管道,从而改善多语言文档处理。
  • 使用多语言E5和Airavata等开源模型在印地语中进行嵌入和文本生成。
  • 配置和管理Chromadb,以在抹布系统中进行有效的矢量存储和检索。
  • 通过使用印地语抹布管道来获得文档摄入,检索和问题回答的实用经验。

本文是数据科学博客马拉松的一部分。

目录:

  • 学习目标
  • 数据获取:收集印地语税收信息
  • 模型选择:选择适当的嵌入和生成模型
  • 设置向量数据库
  • 记录摄入和检索
  • 与Airavata回答
  • 测试和评估
  • 结论
  • 常见问题

数据获取:采购印地语税收信息

我的旅程始于数据收集。我从新闻文章和网站上收集了印地语所得税信息,包括常见问题解答和非结构化文本,涵盖了税收减免部分,常见问题解答和相关形式。最初的URL是:

 <code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>
登录后复制

数据清洁和解析

涉及数据准备:

  • 网络刮擦
  • 数据清洁

让我们检查每个步骤。

网络刮擦

我使用了markdown-crawler ,这是一个最喜欢的网络刮擦库。使用:

 <code>!pip install markdown-crawler !pip install markdownify</code>
登录后复制

markdown-crawler将网站解析为Markdown,将它们存储在.md文件中。我们将max_depth设置为0,以避免爬行链接页面。

这是刮擦功能:

 <code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>
登录后复制

这将Markdown文件保存到incometax_documents文件夹中。

数据清洁

一个解析器读取Markdown文件并将其分为部分。如果您的数据已预处理,请跳过此。

我们使用markdownBeautifulSoup

 <code>!pip install beautifulsoup4 !pip install markdown</code>
登录后复制
导入标记
来自BS4进口美丽的小组

#...(read_markdown_file函数保持不变)...

#...(pass_section函数保持不变)...

#...(代码处理所有.md文件并存储在传递_sections中的代码保持不变)...
登录后复制

数据现在是清洁的,并在passed_sections中进行了组织。更长的内容可能需要块,以保持嵌入模型令牌限制(512),但由于相对较短的部分,此处省略了。请参阅笔记本块代码。

(响应的其余部分将遵循类似的汇总和解释所提供的文本,维护图像位置和格式的模式。由于输入的长度,这将在后续响应中提供。)

以上是使用Indion LLMS建造印地语文档的RAG管道的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1671
14
CakePHP 教程
1428
52
Laravel 教程
1329
25
PHP教程
1276
29
C# 教程
1256
24
如何使用AGNO框架构建多模式AI代理? 如何使用AGNO框架构建多模式AI代理? Apr 23, 2025 am 11:30 AM

在从事代理AI时,开发人员经常发现自己在速度,灵活性和资源效率之间进行权衡。我一直在探索代理AI框架,并遇到了Agno(以前是Phi-

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑 OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑 Apr 16, 2025 am 11:37 AM

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

超越骆驼戏:大型语言模型的4个新基准 超越骆驼戏:大型语言模型的4个新基准 Apr 14, 2025 am 11:09 AM

陷入困境的基准:骆驼案例研究 2025年4月上旬,梅塔(Meta)揭开了Llama 4套件的模特套件,具有令人印象深刻的性能指标,使他们对GPT-4O和Claude 3.5 Sonnet等竞争对手有利地定位。伦斯的中心

Andrew Ng的新简短课程 Andrew Ng的新简短课程 Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

多动症游戏,健康工具和AI聊天机器人如何改变全球健康 多动症游戏,健康工具和AI聊天机器人如何改变全球健康 Apr 14, 2025 am 11:27 AM

视频游戏可以缓解焦虑,建立焦点或支持多动症的孩子吗? 随着医疗保健在全球范围内挑战,尤其是在青年中的挑战,创新者正在转向一种不太可能的工具:视频游戏。现在是世界上最大的娱乐印度河之一

火箭发射模拟和分析使用Rocketpy -Analytics Vidhya 火箭发射模拟和分析使用Rocketpy -Analytics Vidhya Apr 19, 2025 am 11:12 AM

模拟火箭发射的火箭发射:综合指南 本文指导您使用强大的Python库Rocketpy模拟高功率火箭发射。 我们将介绍从定义火箭组件到分析模拟的所有内容

Google揭示了下一个2025年云上最全面的代理策略 Google揭示了下一个2025年云上最全面的代理策略 Apr 15, 2025 am 11:14 AM

双子座是Google AI策略的基础 双子座是Google AI代理策略的基石,它利用其先进的多模式功能来处理和生成跨文本,图像,音频,视频和代码的响应。由DeepM开发

See all articles