Rumah Peranti teknologi AI Mengikis web dengan LLMS

Mengikis web dengan LLMS

Mar 14, 2025 am 10:29 AM

Memanfaatkan kekuatan LLMS untuk mengikis web yang dipertingkatkan

Pengikis web tetap menjadi teknik penting untuk mengekstrak maklumat dalam talian, memperkasakan pemaju untuk mengumpulkan data merentasi pelbagai domain. Penyepaduan model bahasa besar (LLMS) seperti Chatgroq dengan ketara menguatkan keupayaan mengikis web, menawarkan fleksibiliti dan ketepatan yang lebih baik. Artikel ini menunjukkan cara memanfaatkan LLM secara berkesan bersama alat pengikis web untuk mendapatkan data berstruktur dari laman web.

Mengikis web dengan LLMS

Objektif Pembelajaran Utama:

  • Mengintegrasikan LLMS (misalnya, chatgroq) dengan alat pengikis web.
  • Ekstrak data berstruktur dari laman web menggunakan penulis drama dan LLMS.
  • Konfigurasikan persekitaran untuk mengikis web berkuasa LLM.
  • Memproses dan menukar kandungan web ke dalam format berstruktur (contohnya, markdown).
  • Automatikkan dan skala mengikis web untuk pengekstrakan data yang cekap.

Jadual Kandungan:

  • Menyiapkan Persekitaran Pembangunan Anda
  • Mengekstrak Kandungan Web sebagai Markdown
  • Mengkonfigurasi Model Bahasa Besar (LLMS)
  • Mengikis halaman pendaratan
  • Mengikis senarai kereta
  • Kesimpulan
  • Soalan yang sering ditanya

Menyiapkan persekitaran pembangunan anda:

Sebelum memulakan, pastikan persekitaran anda dikonfigurasi dengan betul. Pasang perpustakaan yang diperlukan:

 ! Pip Install -UQQQ PIP -Progress -Bar Off # UPDATE PIP
! Pip Install -Qqq Playwright == 1.46.0 -Progress -bar off # Automasi Penyemak Imbas
! Pip Install -qqq html2text == 2024.2.26 -Progress -bar off # html ke penukaran markdown
! Pip Install -qqq langchain-groq == 0.1.9-Progres-bar off # LLM Integration
! Playwright Pasang Chromium
Salin selepas log masuk

Kod ini mengemas kini PIP, memasang penulis drama untuk automasi penyemak imbas, HTML2Text untuk penukaran HTML-to-Markdown, Langchain-Groq untuk Integrasi LLM, dan Muat turun Chromium untuk penulis drama.

Mengimport modul penting:

Import modul yang diperlukan:

 Import Re
dari pprint pprint pprint
dari menaip senarai import, pilihan

Import html2text
Import Nest_asyncio
Import Pandas sebagai PD
dari Google.Colab Import UserData
dari langchain_groq import chatgroq
dari penulis drama.async_api import async_playwright
dari Pydantic Import Basemodel, Field
Dari TQDM Import TQDM

nest_asyncio.apply ()
Salin selepas log masuk

Mengambil kandungan web sebagai markdown:

Langkah pengikis awal melibatkan pengambilan kandungan web. Penulis drama memudahkan memuatkan laman web dan mengekstrak HTMLnya:

 User_agent = "mozilla/5.0 (MacIntosh; Intel Mac OS X 10_15_7) Applewebkit/537.36 (khtml, seperti gecko) Chrome/128.0.0.0 Safari/537.36"
Playwright = menunggu async_playwright (). Mula ()
Penyemak imbas = menunggu penulis drama.chromium.launch ()

konteks = menunggu penyemak imbas.new_context (user_agent = user_agent)

halaman = menunggu konteks.new_page ()
menunggu halaman.goto ("https://playwright.dev/")
kandungan = menunggu halaman.content ()

menunggu pelayar.close ()
Tunggu Playwright.Stop ()
Cetak (Kandungan) 
Salin selepas log masuk

Mengikis web dengan LLMS

Kod ini menggunakan penulis drama untuk mengambil kandungan HTML laman web. Ejen pengguna tersuai ditetapkan, penyemak imbas menavigasi ke URL, dan HTML diekstrak. Penyemak imbas kemudian ditutup untuk sumber bebas.

Untuk memudahkan pemprosesan, tukar HTML ke Markdown menggunakan HTML2TEXT:

 markdown_converter = html2text.html2text ()
markdown_converter.ignore_links = false
markdown_content = markdown_converter.handle (kandungan)
cetak (markdown_content) 
Salin selepas log masuk

Mengikis web dengan LLMS

Menyediakan Model Bahasa Besar (LLMS):

Konfigurasikan LLM untuk pengekstrakan data berstruktur. Kami akan menggunakan chatgroq:

 Model = "Llama-3.1-70b-scerse"

llm = chatgroq (suhu = 0, model_name = model, api_key = userData.get ("groq_api_key"))

System_prompt = "" "
Anda seorang pengekstrak teks pakar. Anda mengekstrak maklumat dari kandungan laman web.
Sentiasa mengekstrak data tanpa mengubahnya dan apa -apa output lain.
"" "

def create_scrape_prompt (page_content: str) -> str:
    kembali f "" "
Ekstrak maklumat dari laman web berikut:
Salin selepas log masuk

{page_content}

 <code>""".strip()</code>
Salin selepas log masuk

Ini menubuhkan ChatGroq dengan model dan sistem tertentu yang segera membimbing LLM untuk mengekstrak maklumat dengan tepat.

(Bahagian yang tinggal, mengikis halaman pendaratan, mengikis senarai kereta, kesimpulan, dan soalan yang sering ditanya, ikuti corak penjelasan kod yang sama dan kemasukan imej sebagai bahagian di atas. Oleh kerana panjangnya, saya telah meninggalkan mereka di sini untuk keringkasan. Namun, struktur dan gaya akan tetap konsisten dengan contoh -contoh yang telah disediakan.

Kod lengkap, termasuk bahagian yang ditinggalkan, akan agak luas. Tanggapan ini memberikan penjelasan terperinci mengenai persediaan awal dan langkah -langkah utama pertama, menunjukkan pendekatan dan gaya keseluruhan. Sekiranya anda memerlukan bahagian tertentu, sila beritahu saya.

Atas ialah kandungan terperinci Mengikis web dengan LLMS. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

<🎜>: Bubble Gum Simulator Infinity - Cara Mendapatkan dan Menggunakan Kekunci Diraja
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Sistem Fusion, dijelaskan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Cara Membuka Kunci Cangkuk Bergelut
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Tutorial Java
1674
14
Tutorial PHP
1278
29
Tutorial C#
1257
24
Bagaimana Membina Ejen AI Multimodal Menggunakan Rangka Kerja AGNO? Bagaimana Membina Ejen AI Multimodal Menggunakan Rangka Kerja AGNO? Apr 23, 2025 am 11:30 AM

Semasa bekerja pada AIS AI, pemaju sering mendapati diri mereka menavigasi perdagangan antara kelajuan, fleksibiliti, dan kecekapan sumber. Saya telah meneroka rangka kerja AI yang agentik dan menjumpai Agno (sebelum ini adalah Phi-

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kos Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kos Apr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Bagaimana untuk menambah lajur dalam SQL? - Analytics Vidhya Bagaimana untuk menambah lajur dalam SQL? - Analytics Vidhya Apr 17, 2025 am 11:43 AM

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Kursus Pendek Baru mengenai Model Embedding oleh Andrew Ng Kursus Pendek Baru mengenai Model Embedding oleh Andrew Ng Apr 15, 2025 am 11:32 AM

Buka kunci kekuatan model embedding: menyelam jauh ke kursus baru Andrew Ng Bayangkan masa depan di mana mesin memahami dan menjawab soalan anda dengan ketepatan yang sempurna. Ini bukan fiksyen sains; Terima kasih kepada kemajuan dalam AI, ia menjadi R

Simulasi dan analisis pelancaran roket menggunakan Rocketpy - Analytics Vidhya Simulasi dan analisis pelancaran roket menggunakan Rocketpy - Analytics Vidhya Apr 19, 2025 am 11:12 AM

Simulasi Rocket dilancarkan dengan Rocketpy: Panduan Komprehensif Artikel ini membimbing anda melalui mensimulasikan pelancaran roket kuasa tinggi menggunakan Rocketpy, perpustakaan Python yang kuat. Kami akan merangkumi segala -galanya daripada menentukan komponen roket untuk menganalisis simula

Google melancarkan strategi ejen yang paling komprehensif di Cloud Seterusnya 2025 Google melancarkan strategi ejen yang paling komprehensif di Cloud Seterusnya 2025 Apr 15, 2025 am 11:14 AM

Gemini sebagai asas strategi AI Google Gemini adalah asas kepada strategi ejen AI Google, memanfaatkan keupayaan multimodalnya untuk memproses dan menjana respons di seluruh teks, imej, audio, video dan kod. Dibangunkan oleh DeepM

Robot Humanoid Sumber Terbuka yang Anda Boleh Mencetak Diri 3D: Memeluk Wajah Membeli Robotik Debunga Robot Humanoid Sumber Terbuka yang Anda Boleh Mencetak Diri 3D: Memeluk Wajah Membeli Robotik Debunga Apr 15, 2025 am 11:25 AM

"Super gembira untuk mengumumkan bahawa kami memperoleh robotik debunga untuk membawa robot sumber terbuka ke dunia," kata Hugging Face pada X. "Sejak Remi Cadene menyertai kami dari Tesla, kami telah menjadi platform perisian yang paling banyak digunakan untuk robot terbuka terima kasih

DeepCoder-14b: Pertandingan sumber terbuka untuk O3-Mini dan O1 DeepCoder-14b: Pertandingan sumber terbuka untuk O3-Mini dan O1 Apr 26, 2025 am 09:07 AM

Dalam perkembangan penting bagi komuniti AI, Agentica dan bersama-sama AI telah mengeluarkan model pengekodan AI sumber terbuka bernama DeepCoder-14b. Menawarkan keupayaan penjanaan kod setanding dengan pesaing sumber tertutup seperti OpenAI

See all articles