Membina saluran paip kain untuk dokumen Hindi dengan llms indik
Namaste! Saya seorang India, dan kami mengalami empat musim yang berbeza: musim sejuk, musim panas, monsun, dan musim luruh. Tetapi anda tahu apa yang saya benar -benar takut? Musim Cukai!
Tahun ini, seperti biasa, saya bergelut dengan peraturan cukai pendapatan India dan kertas kerja untuk memaksimumkan simpanan undang -undang saya. Saya memakan video dan dokumen yang tidak terkira banyaknya - beberapa dalam bahasa Inggeris, yang lain di Hindi - mencari jawapan. Dengan hanya 48 jam sehingga tarikh akhir, saya menyedari bahawa saya sudah tidak lama lagi. Saya sangat berharap untuk penyelesaian yang cepat, bahasa-agnostik.
Walaupun Pengambilan Generasi Tambahan (RAG) kelihatan ideal, kebanyakan tutorial dan model hanya memberi tumpuan kepada bahasa Inggeris. Kandungan bukan bahasa Inggeris sebahagian besarnya diabaikan. Itulah ketika inspirasi melanda: Saya dapat membina saluran paip kain khusus untuk kandungan India - satu yang mampu menjawab soalan menggunakan dokumen Hindi. Dan sebagainya, projek saya bermula!
Colab Notebook: Bagi mereka yang lebih suka pendekatan tangan, kod lengkap boleh didapati dalam buku nota Colab [Link to Colab Notebook]. Persekitaran GPU T4 disyorkan.
Mari menyelam!
Objektif Pembelajaran Utama:
- Membina saluran paip RAG lengkap untuk memproses dokumen cukai Hindi.
- Teknik induk untuk mengikis web, pembersihan data, dan penstrukturan teks Hindi untuk NLP.
- Leverage indic LLMS untuk membina saluran paip RAG untuk bahasa India, meningkatkan pemprosesan dokumen berbilang bahasa.
- Gunakan model sumber terbuka seperti E5 dan Airavata berbilang bahasa untuk penyembuhan dan penjanaan teks di Hindi.
- Konfigurasikan dan uruskan ChromAdb untuk penyimpanan vektor yang cekap dan pengambilan semula dalam sistem RAG.
- Dapatkan pengalaman praktikal dengan pengambilan dokumen, pengambilan semula, dan soalan menjawab menggunakan saluran paip Hindi.
Artikel ini adalah sebahagian daripada Blogathon Sains Data.
Jadual Kandungan:
- Objektif pembelajaran
- Pengambilalihan Data: Mengumpulkan Maklumat Cukai Hindi
- Pemilihan Model: Memilih model penyembuhan dan generasi yang sesuai
- Menyediakan pangkalan data vektor
- Pengambilan dokumen dan pengambilan semula
- Jawapan Generasi dengan Airavata
- Ujian dan penilaian
- Kesimpulan
- Soalan yang sering ditanya
Pengambilalihan Data: Menyumbat Maklumat Cukai Hindi
Perjalanan saya bermula dengan pengumpulan data. Saya mengumpulkan maklumat cukai pendapatan Hindi dari artikel dan laman web berita, termasuk Soalan Lazim dan teks yang tidak berstruktur yang meliputi bahagian potongan cukai, Soalan Lazim, dan borang yang berkaitan. URL awal adalah:
<code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>
Pembersihan dan parsing data
Penyediaan data yang terlibat:
- Mengikis web
- Pembersihan data
Mari kita periksa setiap langkah.
Mengikis web
Saya menggunakan markdown-crawler
, perpustakaan kegemaran untuk mengikis web. Pasangnya menggunakan:
<code>!pip install markdown-crawler !pip install markdownify</code>
markdown-crawler
menghancurkan laman web ke Markdown, menyimpannya dalam fail .md
. Kami menetapkan max_depth
ke 0 untuk mengelakkan merangkak halaman yang dipautkan.
Inilah fungsi mengikis:
<code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>
Ini menjimatkan fail markdown ke folder incometax_documents
.
Pembersihan data
Parser membaca fail markdown dan memisahkannya ke dalam bahagian. Jika data anda diproses sebelum ini, langkau ini.
Kami menggunakan markdown
dan BeautifulSoup
:
<code>!pip install beautifulsoup4 !pip install markdown</code>
Import Markdown dari bs4 import cantikSoup # ... (read_markdown_file fungsi tetap sama) ... # ... (fungsi pass_section tetap sama) ... # ... (kod untuk memproses semua fail .md dan simpan dalam lulus_sections tetap sama) ...
Data kini bersih dan teratur dalam passed_sections
. Chunking mungkin diperlukan untuk kandungan yang lebih lama untuk kekal dalam batas token model (512), tetapi ia ditinggalkan di sini kerana bahagian yang agak pendek. Rujuk buku nota untuk kod chunking.
(Selebihnya respons akan mengikuti corak yang sama meringkaskan dan merangka teks yang disediakan, mengekalkan kedudukan dan format imej. Oleh kerana panjang input, ini akan disediakan dalam respons berikutnya.)
Atas ialah kandungan terperinci Membina saluran paip kain untuk dokumen Hindi dengan llms indik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas











Semasa bekerja pada AIS AI, pemaju sering mendapati diri mereka menavigasi perdagangan antara kelajuan, fleksibiliti, dan kecekapan sumber. Saya telah meneroka rangka kerja AI yang agentik dan menjumpai Agno (sebelum ini adalah Phi-

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Penanda Aras Bermasalah: Kajian Kes Llama Pada awal April 2025, Meta melancarkan model Llama 4 suite, dengan metrik prestasi yang mengagumkan yang meletakkan mereka dengan baik terhadap pesaing seperti GPT-4O dan Claude 3.5 sonnet. Pusat ke LAUNC

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

Simulasi Rocket dilancarkan dengan Rocketpy: Panduan Komprehensif Artikel ini membimbing anda melalui mensimulasikan pelancaran roket kuasa tinggi menggunakan Rocketpy, perpustakaan Python yang kuat. Kami akan merangkumi segala -galanya daripada menentukan komponen roket untuk menganalisis simula

Gemini sebagai asas strategi AI Google Gemini adalah asas kepada strategi ejen AI Google, memanfaatkan keupayaan multimodalnya untuk memproses dan menjana respons di seluruh teks, imej, audio, video dan kod. Dibangunkan oleh DeepM
