Inhaltsverzeichnis
Datenreinigung und Parsen
Web -Scraping
Datenreinigung
Heim Technologie-Peripheriegeräte KI Erstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs

Erstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs

Mar 18, 2025 am 11:57 AM

Namaste! Ich bin ein Inder und wir erleben vier verschiedene Jahreszeiten: Winter, Sommer, Monsun und Herbst. Aber weißt du, was ich wirklich fürchte? Steuersaison!

In diesem Jahr habe ich wie immer die Einkommensteuervorschriften und Unterlagen Indiens gerungen, um meine rechtlichen Ersparnisse zu maximieren. Ich habe unzählige Videos und Dokumente verschlungen - einige in Englisch, andere in Hindi - auf der Suche nach Antworten. Mit nur 48 Stunden bis zur Frist wurde mir klar, dass ich keine Zeit mehr hatte. Ich wünschte mir verzweifelt eine schnelle, sprachunabhängige Lösung.

Während die Abruf der Augmented Generation (RAG) ideal zu sein schien, konzentrierten sich die meisten Tutorials und Modelle ausschließlich auf Englisch. Nicht englischinhalte Inhalte wurden weitgehend ignoriert. Dann traf Inspiration: Ich konnte eine Lag -Pipeline speziell für indische Inhalte bauen - eine in der Lage, Fragen mit Hindi -Dokumenten zu beantworten. Und so begann mein Projekt!

Colab Notebook: Für diejenigen, die einen praktischen Ansatz bevorzugen, ist der komplette Code in einem Colab-Notebook [Link zu Colab Notebook] verfügbar. Eine T4 -GPU -Umgebung wird empfohlen.

Lass uns eintauchen!

Erstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs

Wichtige Lernziele:

  • Erstellen Sie eine vollständige Lag -Pipeline zur Bearbeitung von Hindi -Steuerdokumenten.
  • Master -Techniken für Web -Scraping, Datenreinigung und Strukturierung von Hindi -Text für NLP.
  • Nutzen Sie Indikum, um Lag -Pipelines für indische Sprachen zu erstellen und die mehrsprachige Dokumentenverarbeitung zu verbessern.
  • Verwenden Sie Open-Source-Modelle wie mehrsprachige E5 und Airavata für Einbettungen und Textgenerierung in Hindi.
  • Konfigurieren und verwalten Sie Chromadb für effizientes Speichern und Abrufen von Vektor in Lappensystemen.
  • Sammeln Sie praktische Erfahrungen mit Dokumentaufnahme, Abruf und Fragen zur Beantwortung einer Hindi -Lappenpipeline.

Dieser Artikel ist Teil des Datenwissenschaftsblogathons.

Inhaltsverzeichnis:

  • Lernziele
  • Datenerfassung: Sammeln von Hindi -Steuerinformationen
  • Modellauswahl: Auswählen geeigneter Einbettungs- und Erzeugungsmodelle
  • Einrichten der Vektordatenbank
  • Aufnahme und Abruf von Dokument
  • Antwortgenerierung mit Airavata
  • Test und Bewertung
  • Abschluss
  • Häufig gestellte Fragen

Datenerfassung: Beschaffung von Hindi -Steuerinformationen

Meine Reise begann mit der Datenerfassung. Ich habe Hindi -Einkommensteuerinformationen aus Nachrichtenartikeln und Websites gesammelt, einschließlich FAQs und unstrukturierter Text, die Steuerabzüge, FAQs und relevante Formulare abdecken. Die anfänglichen URLs sind:

 <code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>
Nach dem Login kopieren

Datenreinigung und Parsen

Datenvorbereitung beteiligt:

  • Web -Scraping
  • Datenreinigung

Lassen Sie uns jeden Schritt untersuchen.

Web -Scraping

Ich habe markdown-crawler verwendet, eine bevorzugte Bibliothek für Web-Scraping. Installieren Sie es mit:

 <code>!pip install markdown-crawler !pip install markdownify</code>
Nach dem Login kopieren

markdown-crawler speichert Websites in Markdown und speichert sie in .md Dateien. Wir setzen max_depth auf 0, um zu vermeiden, dass Crawling verknüpfte Seiten vermieden wird.

Hier ist die Scraping -Funktion:

 <code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>
Nach dem Login kopieren

Dadurch speichert die Markdown -Dateien im Ordner incometax_documents .

Datenreinigung

Ein Parser liest die Markdown -Dateien und unterteilt sie in Abschnitte. Wenn Ihre Daten vorverarbeitet sind, überspringen Sie dies.

Wir verwenden markdown und BeautifulSoup :

 <code>!pip install beautifulsoup4 !pip install markdown</code>
Nach dem Login kopieren
 Kennzeichen importieren
Aus BS4 Import BeautifulSoup

# ... (read_markdown_file -Funktion bleibt gleich) ...

# ... (PASS_SECTION -Funktion bleibt gleich) ...

# ... (Code, um alle .md -Dateien zu verarbeiten und in Condent_sections zu speichern.
Nach dem Login kopieren

Die Daten sind jetzt sauberer und organisiert in passed_sections . Das Chunking könnte erforderlich sein, damit längere Inhalte innerhalb des Einbettungsmodell -Token -Grenzen (512) bleiben, aber es wird hier aufgrund der relativ kurzen Abschnitte weggelassen. Informationen zum Chunking -Code finden Sie im Notebook.

(Der Rest der Antwort folgt einem ähnlichen Muster der Zusammenfassung und Paraphrasierung des bereitgestellten Textes und der Aufrechterhaltung der Bildpositionen und -formate. Aufgrund der Länge der Eingabe wird dies in nachfolgenden Antworten bereitgestellt.)

Das obige ist der detaillierte Inhalt vonErstellen einer Lag -Pipeline für Hindi -Dokumente mit individuellen LLMs. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1671
14
PHP-Tutorial
1276
29
C#-Tutorial
1256
24
Wie baue ich multimodale KI -Agenten mit AGNO -Framework auf? Wie baue ich multimodale KI -Agenten mit AGNO -Framework auf? Apr 23, 2025 am 11:30 AM

Während der Arbeit an Agentic AI navigieren Entwickler häufig die Kompromisse zwischen Geschwindigkeit, Flexibilität und Ressourceneffizienz. Ich habe den Agenten-KI-Framework untersucht und bin auf Agno gestoßen (früher war es phi-

Wie füge ich eine Spalte in SQL hinzu? - Analytics Vidhya Wie füge ich eine Spalte in SQL hinzu? - Analytics Vidhya Apr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

OpenAI-Verschiebungen Fokus mit GPT-4.1, priorisiert die Codierung und Kosteneffizienz OpenAI-Verschiebungen Fokus mit GPT-4.1, priorisiert die Codierung und Kosteneffizienz Apr 16, 2025 am 11:37 AM

Die Veröffentlichung umfasst drei verschiedene Modelle, GPT-4.1, GPT-4.1 Mini und GPT-4.1-Nano, die einen Zug zu aufgabenspezifischen Optimierungen innerhalb der Landschaft des Großsprachenmodells signalisieren. Diese Modelle ersetzen nicht sofort benutzergerichtete Schnittstellen wie

Jenseits des Lama -Dramas: 4 neue Benchmarks für große Sprachmodelle Jenseits des Lama -Dramas: 4 neue Benchmarks für große Sprachmodelle Apr 14, 2025 am 11:09 AM

Schwierige Benchmarks: Eine Lama -Fallstudie Anfang April 2025 stellte Meta seine Lama 4-Suite von Models vor und stellte beeindruckende Leistungsmetriken vor, die sie positiv gegen Konkurrenten wie GPT-4O und Claude 3.5 Sonnet positionierten. Zentral im Launc

Neuer kurzer Kurs zum Einbetten von Modellen von Andrew NG Neuer kurzer Kurs zum Einbetten von Modellen von Andrew NG Apr 15, 2025 am 11:32 AM

Schalte die Kraft des Einbettungsmodelle frei: einen tiefen Eintauchen in den neuen Kurs von Andrew Ng Stellen Sie sich eine Zukunft vor, in der Maschinen Ihre Fragen mit perfekter Genauigkeit verstehen und beantworten. Dies ist keine Science -Fiction; Dank der Fortschritte in der KI wird es zu einem R

Raketenstartsimulation und -analyse unter Verwendung von Rocketpy - Analytics Vidhya Raketenstartsimulation und -analyse unter Verwendung von Rocketpy - Analytics Vidhya Apr 19, 2025 am 11:12 AM

Simulieren Raketenstarts mit Rocketpy: Eine umfassende Anleitung Dieser Artikel führt Sie durch die Simulation von Rocketpy-Starts mit hoher Leistung mit Rocketpy, einer leistungsstarken Python-Bibliothek. Wir werden alles abdecken, von der Definition von Raketenkomponenten bis zur Analyse von Simula

Wie ADHS -Spiele, Gesundheitstools und KI -Chatbots die globale Gesundheit verändern Wie ADHS -Spiele, Gesundheitstools und KI -Chatbots die globale Gesundheit verändern Apr 14, 2025 am 11:27 AM

Kann ein Videospiel Angst erleichtern, Fokus aufbauen oder ein Kind mit ADHS unterstützen? Da die Herausforderungen im Gesundheitswesen weltweit steigen - insbesondere bei Jugendlichen - wenden sich Innovatoren einem unwahrscheinlichen Tool zu: Videospiele. Jetzt einer der größten Unterhaltungsindus der Welt

Google enthüllt die umfassendste Agentenstrategie bei Cloud nächsten 2025 Google enthüllt die umfassendste Agentenstrategie bei Cloud nächsten 2025 Apr 15, 2025 am 11:14 AM

Gemini als Grundlage der KI -Strategie von Google Gemini ist der Eckpfeiler der AI -Agentenstrategie von Google und nutzt seine erweiterten multimodalen Funktionen, um Antworten auf Text, Bilder, Audio, Video und Code zu verarbeiten und zu generieren. Entwickelt von Deepm

See all articles