Jadual Kandungan
Pembersihan dan parsing data
Mengikis web
Pembersihan data
Rumah Peranti teknologi AI Membina saluran paip kain untuk dokumen Hindi dengan llms indik

Membina saluran paip kain untuk dokumen Hindi dengan llms indik

Mar 18, 2025 am 11:57 AM

Namaste! Saya seorang India, dan kami mengalami empat musim yang berbeza: musim sejuk, musim panas, monsun, dan musim luruh. Tetapi anda tahu apa yang saya benar -benar takut? Musim Cukai!

Tahun ini, seperti biasa, saya bergelut dengan peraturan cukai pendapatan India dan kertas kerja untuk memaksimumkan simpanan undang -undang saya. Saya memakan video dan dokumen yang tidak terkira banyaknya - beberapa dalam bahasa Inggeris, yang lain di Hindi - mencari jawapan. Dengan hanya 48 jam sehingga tarikh akhir, saya menyedari bahawa saya sudah tidak lama lagi. Saya sangat berharap untuk penyelesaian yang cepat, bahasa-agnostik.

Walaupun Pengambilan Generasi Tambahan (RAG) kelihatan ideal, kebanyakan tutorial dan model hanya memberi tumpuan kepada bahasa Inggeris. Kandungan bukan bahasa Inggeris sebahagian besarnya diabaikan. Itulah ketika inspirasi melanda: Saya dapat membina saluran paip kain khusus untuk kandungan India - satu yang mampu menjawab soalan menggunakan dokumen Hindi. Dan sebagainya, projek saya bermula!

Colab Notebook: Bagi mereka yang lebih suka pendekatan tangan, kod lengkap boleh didapati dalam buku nota Colab [Link to Colab Notebook]. Persekitaran GPU T4 disyorkan.

Mari menyelam!

Membina saluran paip kain untuk dokumen Hindi dengan llms indik

Objektif Pembelajaran Utama:

  • Membina saluran paip RAG lengkap untuk memproses dokumen cukai Hindi.
  • Teknik induk untuk mengikis web, pembersihan data, dan penstrukturan teks Hindi untuk NLP.
  • Leverage indic LLMS untuk membina saluran paip RAG untuk bahasa India, meningkatkan pemprosesan dokumen berbilang bahasa.
  • Gunakan model sumber terbuka seperti E5 dan Airavata berbilang bahasa untuk penyembuhan dan penjanaan teks di Hindi.
  • Konfigurasikan dan uruskan ChromAdb untuk penyimpanan vektor yang cekap dan pengambilan semula dalam sistem RAG.
  • Dapatkan pengalaman praktikal dengan pengambilan dokumen, pengambilan semula, dan soalan menjawab menggunakan saluran paip Hindi.

Artikel ini adalah sebahagian daripada Blogathon Sains Data.

Jadual Kandungan:

  • Objektif pembelajaran
  • Pengambilalihan Data: Mengumpulkan Maklumat Cukai Hindi
  • Pemilihan Model: Memilih model penyembuhan dan generasi yang sesuai
  • Menyediakan pangkalan data vektor
  • Pengambilan dokumen dan pengambilan semula
  • Jawapan Generasi dengan Airavata
  • Ujian dan penilaian
  • Kesimpulan
  • Soalan yang sering ditanya

Pengambilalihan Data: Menyumbat Maklumat Cukai Hindi

Perjalanan saya bermula dengan pengumpulan data. Saya mengumpulkan maklumat cukai pendapatan Hindi dari artikel dan laman web berita, termasuk Soalan Lazim dan teks yang tidak berstruktur yang meliputi bahagian potongan cukai, Soalan Lazim, dan borang yang berkaitan. URL awal adalah:

 <code>urls =['https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr1-form-sahaj-faq', 'https://www.incometax.gov.in/iec/foportal/hi/help/e-filing-itr4-form-sugam-faq', 'https://navbharattimes.indiatimes.com/business/budget/budget-classroom/income-tax-sections-know-which-section-can-save-how-much-tax-here-is-all-about-income-tax-law-to-understand-budget-speech/articleshow/89141099.cms', 'https://www.incometax.gov.in/iec/foportal/hi/help/individual/return-applicable-1', 'https://www.zeebiz.com/hindi/personal-finance/income-tax/tax-deductions-under-section-80g-income-tax-exemption-limit-how-to-save-tax-on-donation-money-to-charitable-trusts-126529' ]</code>
Salin selepas log masuk

Pembersihan dan parsing data

Penyediaan data yang terlibat:

  • Mengikis web
  • Pembersihan data

Mari kita periksa setiap langkah.

Mengikis web

Saya menggunakan markdown-crawler , perpustakaan kegemaran untuk mengikis web. Pasangnya menggunakan:

 <code>!pip install markdown-crawler !pip install markdownify</code>
Salin selepas log masuk

markdown-crawler menghancurkan laman web ke Markdown, menyimpannya dalam fail .md . Kami menetapkan max_depth ke 0 untuk mengelakkan merangkak halaman yang dipautkan.

Inilah fungsi mengikis:

 <code>from markdown_crawler import md_crawl def crawl_urls(urls: list, storage_folder_path: str, max_depth=0): for url in urls: print(f"Crawling {url}") md_crawl(url, max_depth=max_depth, base_dir=storage_folder_path, is_links=True) crawl_urls(urls= urls, storage_folder_path = './incometax_documents/')</code>
Salin selepas log masuk

Ini menjimatkan fail markdown ke folder incometax_documents .

Pembersihan data

Parser membaca fail markdown dan memisahkannya ke dalam bahagian. Jika data anda diproses sebelum ini, langkau ini.

Kami menggunakan markdown dan BeautifulSoup :

 <code>!pip install beautifulsoup4 !pip install markdown</code>
Salin selepas log masuk
 Import Markdown
dari bs4 import cantikSoup

# ... (read_markdown_file fungsi tetap sama) ...

# ... (fungsi pass_section tetap sama) ...

# ... (kod untuk memproses semua fail .md dan simpan dalam lulus_sections tetap sama) ...
Salin selepas log masuk

Data kini bersih dan teratur dalam passed_sections . Chunking mungkin diperlukan untuk kandungan yang lebih lama untuk kekal dalam batas token model (512), tetapi ia ditinggalkan di sini kerana bahagian yang agak pendek. Rujuk buku nota untuk kod chunking.

(Selebihnya respons akan mengikuti corak yang sama meringkaskan dan merangka teks yang disediakan, mengekalkan kedudukan dan format imej. Oleh kerana panjang input, ini akan disediakan dalam respons berikutnya.)

Atas ialah kandungan terperinci Membina saluran paip kain untuk dokumen Hindi dengan llms indik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1671
14
Tutorial PHP
1276
29
Tutorial C#
1256
24
Bagaimana Membina Ejen AI Multimodal Menggunakan Rangka Kerja AGNO? Bagaimana Membina Ejen AI Multimodal Menggunakan Rangka Kerja AGNO? Apr 23, 2025 am 11:30 AM

Semasa bekerja pada AIS AI, pemaju sering mendapati diri mereka menavigasi perdagangan antara kelajuan, fleksibiliti, dan kecekapan sumber. Saya telah meneroka rangka kerja AI yang agentik dan menjumpai Agno (sebelum ini adalah Phi-

Bagaimana untuk menambah lajur dalam SQL? - Analytics Vidhya Bagaimana untuk menambah lajur dalam SQL? - Analytics Vidhya Apr 17, 2025 am 11:43 AM

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kos Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kos Apr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Beyond the Llama Drama: 4 Benchmarks Baru Untuk Model Bahasa Besar Beyond the Llama Drama: 4 Benchmarks Baru Untuk Model Bahasa Besar Apr 14, 2025 am 11:09 AM

Penanda Aras Bermasalah: Kajian Kes Llama Pada awal April 2025, Meta melancarkan model Llama 4 suite, dengan metrik prestasi yang mengagumkan yang meletakkan mereka dengan baik terhadap pesaing seperti GPT-4O dan Claude 3.5 sonnet. Pusat ke LAUNC

Kursus Pendek Baru mengenai Model Embedding oleh Andrew Ng Kursus Pendek Baru mengenai Model Embedding oleh Andrew Ng Apr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Bagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan global Bagaimana permainan ADHD, alat kesihatan & chatbots AI mengubah kesihatan global Apr 14, 2025 am 11:27 AM

Bolehkah permainan video meringankan kebimbangan, membina fokus, atau menyokong kanak -kanak dengan ADHD? Memandangkan cabaran penjagaan kesihatan melonjak di seluruh dunia - terutamanya di kalangan belia - inovator beralih kepada alat yang tidak mungkin: permainan video. Sekarang salah satu hiburan terbesar di dunia Indus

Simulasi dan analisis pelancaran roket menggunakan Rocketpy - Analytics Vidhya Simulasi dan analisis pelancaran roket menggunakan Rocketpy - Analytics Vidhya Apr 19, 2025 am 11:12 AM

Simulasi Rocket dilancarkan dengan Rocketpy: Panduan Komprehensif Artikel ini membimbing anda melalui mensimulasikan pelancaran roket kuasa tinggi menggunakan Rocketpy, perpustakaan Python yang kuat. Kami akan merangkumi segala -galanya daripada menentukan komponen roket untuk menganalisis simula

Google melancarkan strategi ejen yang paling komprehensif di Cloud Seterusnya 2025 Google melancarkan strategi ejen yang paling komprehensif di Cloud Seterusnya 2025 Apr 15, 2025 am 11:14 AM

Gemini sebagai asas strategi AI Google Gemini adalah asas kepada strategi ejen AI Google, memanfaatkan keupayaan multimodalnya untuk memproses dan menjana respons di seluruh teks, imej, audio, video dan kod. Dibangunkan oleh DeepM

See all articles