Membina saluran paip kain untuk dokumen Hindi dengan llms indik-AI-php.cn

Jadual Kandungan

Pembersihan dan parsing data

Mengikis web

Pembersihan data

Rumah

Peranti teknologi

Membina saluran paip kain untuk dokumen Hindi dengan llms indik

Jennifer Aniston

Mar 18, 2025 am 11:57 AM

Namaste! Saya seorang India, dan kami mengalami empat musim yang berbeza: musim sejuk, musim panas, monsun, dan musim luruh. Tetapi anda tahu apa yang saya benar -benar takut? Musim Cukai!

Tahun ini, seperti biasa, saya bergelut dengan peraturan cukai pendapatan India dan kertas kerja untuk memaksimumkan simpanan undang -undang saya. Saya memakan video dan dokumen yang tidak terkira banyaknya - beberapa dalam bahasa Inggeris, yang lain di Hindi - mencari jawapan. Dengan hanya 48 jam sehingga tarikh akhir, saya menyedari bahawa saya sudah tidak lama lagi. Saya sangat berharap untuk penyelesaian yang cepat, bahasa-agnostik.

Walaupun Pengambilan Generasi Tambahan (RAG) kelihatan ideal, kebanyakan tutorial dan model hanya memberi tumpuan kepada bahasa Inggeris. Kandungan bukan bahasa Inggeris sebahagian besarnya diabaikan. Itulah ketika inspirasi melanda: Saya dapat membina saluran paip kain khusus untuk kandungan India - satu yang mampu menjawab soalan menggunakan dokumen Hindi. Dan sebagainya, projek saya bermula!

Colab Notebook: Bagi mereka yang lebih suka pendekatan tangan, kod lengkap boleh didapati dalam buku nota Colab [Link to Colab Notebook]. Persekitaran GPU T4 disyorkan.

Mari menyelam!

Membina saluran paip kain untuk dokumen Hindi dengan llms indik

Objektif Pembelajaran Utama:

Membina saluran paip RAG lengkap untuk memproses dokumen cukai Hindi.
Teknik induk untuk mengikis web, pembersihan data, dan penstrukturan teks Hindi untuk NLP.
Leverage indic LLMS untuk membina saluran paip RAG untuk bahasa India, meningkatkan pemprosesan dokumen berbilang bahasa.
Gunakan model sumber terbuka seperti E5 dan Airavata berbilang bahasa untuk penyembuhan dan penjanaan teks di Hindi.
Konfigurasikan dan uruskan ChromAdb untuk penyimpanan vektor yang cekap dan pengambilan semula dalam sistem RAG.
Dapatkan pengalaman praktikal dengan pengambilan dokumen, pengambilan semula, dan soalan menjawab menggunakan saluran paip Hindi.

Artikel ini adalah sebahagian daripada Blogathon Sains Data.

Jadual Kandungan:

Objektif pembelajaran
Pengambilalihan Data: Mengumpulkan Maklumat Cukai Hindi
Pemilihan Model: Memilih model penyembuhan dan generasi yang sesuai
Menyediakan pangkalan data vektor
Pengambilan dokumen dan pengambilan semula
Jawapan Generasi dengan Airavata
Ujian dan penilaian
Kesimpulan
Soalan yang sering ditanya

Pengambilalihan Data: Menyumbat Maklumat Cukai Hindi

Perjalanan saya bermula dengan pengumpulan data. Saya mengumpulkan maklumat cukai pendapatan Hindi dari artikel dan laman web berita, termasuk Soalan Lazim dan teks yang tidak berstruktur yang meliputi bahagian potongan cukai, Soalan Lazim, dan borang yang berkaitan. URL awal adalah:

 <code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>

Salin selepas log masuk

Pembersihan dan parsing data

Penyediaan data yang terlibat:

Mengikis web
Pembersihan data

Mari kita periksa setiap langkah.

Mengikis web

Saya menggunakan markdown-crawler , perpustakaan kegemaran untuk mengikis web. Pasangnya menggunakan:

 <code>!pip install markdown-crawler !pip install markdownify</code>

Salin selepas log masuk

markdown-crawler menghancurkan laman web ke Markdown, menyimpannya dalam fail .md . Kami menetapkan max_depth ke 0 untuk mengelakkan merangkak halaman yang dipautkan.

Inilah fungsi mengikis:

 <code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>

Salin selepas log masuk

Ini menjimatkan fail markdown ke folder incometax_documents .

Pembersihan data

Parser membaca fail markdown dan memisahkannya ke dalam bahagian. Jika data anda diproses sebelum ini, langkau ini.

Kami menggunakan markdown dan BeautifulSoup :

 <code>!pip install beautifulsoup4 !pip install markdown</code>

Salin selepas log masuk

 Import Markdown
dari bs4 import cantikSoup

# ... (read_markdown_file fungsi tetap sama) ...

# ... (fungsi pass_section tetap sama) ...

# ... (kod untuk memproses semua fail .md dan simpan dalam lulus_sections tetap sama) ...

Salin selepas log masuk

Data kini bersih dan teratur dalam passed_sections . Chunking mungkin diperlukan untuk kandungan yang lebih lama untuk kekal dalam batas token model (512), tetapi ia ditinggalkan di sini kerana bahagian yang agak pendek. Rujuk buku nota untuk kod chunking.

(Selebihnya respons akan mengikuti corak yang sama meringkaskan dan merangka teks yang disediakan, mengekalkan kedudukan dan format imej. Oleh kerana panjang input, ini akan disediakan dalam respons berikutnya.)

Atas ialah kandungan terperinci Membina saluran paip kain untuk dokumen Hindi dengan llms indik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Bagaimana untuk memperbaiki KB5055612 gagal dipasang di Windows 10?

4 minggu yang lalu By DDD

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Tumbuh Taman - Panduan Mutasi Lengkap

3 minggu yang lalu By DDD

Nordhold: Sistem Fusion, dijelaskan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Tutorial Java

1671

Tutorial CakePHP

1428

Tutorial Laravel

1329

Tutorial PHP

1276

Tutorial C#

1256

Tunjukkan Lagi

Related knowledge

Bagaimana Membina Ejen AI Multimodal Menggunakan Rangka Kerja AGNO? Apr 23, 2025 am 11:30 AM

Semasa bekerja pada AIS AI, pemaju sering mendapati diri mereka menavigasi perdagangan antara kelajuan, fleksibiliti, dan kecekapan sumber. Saya telah meneroka rangka kerja AI yang agentik dan menjumpai Agno (sebelum ini adalah Phi-

Bagaimana untuk menambah lajur dalam SQL? - Analytics Vidhya Apr 17, 2025 am 11:43 AM

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kos Apr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Beyond the Llama Drama: 4 Benchmarks Baru Untuk Model Bahasa Besar Apr 14, 2025 am 11:09 AM

Penanda Aras Bermasalah: Kajian Kes Llama Pada awal April 2025, Meta melancarkan model Llama 4 suite, dengan metrik prestasi yang mengagumkan yang meletakkan mereka dengan baik terhadap pesaing seperti GPT-4O dan Claude 3.5 sonnet. Pusat ke LAUNC

Kursus Pendek Baru mengenai Model Embedding oleh Andrew Ng Apr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Bagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan global Apr 14, 2025 am 11:27 AM

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

Simulasi dan analisis pelancaran roket menggunakan Rocketpy - Analytics Vidhya Apr 19, 2025 am 11:12 AM

Simulasi Rocket dilancarkan dengan Rocketpy: Panduan Komprehensif Artikel ini membimbing anda melalui mensimulasikan pelancaran roket kuasa tinggi menggunakan Rocketpy, perpustakaan Python yang kuat. Kami akan merangkumi segala -galanya daripada menentukan komponen roket untuk menganalisis simula

Google melancarkan strategi ejen yang paling komprehensif di Cloud Seterusnya 2025 Apr 15, 2025 am 11:14 AM

Gemini sebagai asas strategi AI Google Gemini adalah asas kepada strategi ejen AI Google, memanfaatkan keupayaan multimodalnya untuk memproses dan menjana respons di seluruh teks, imej, audio, video dan kod. Dibangunkan oleh DeepM

See all articles