ホームページ テクノロジー周辺機器 AI LLMSでWebスクレイピング

LLMSでWebスクレイピング

Mar 14, 2025 am 10:29 AM

Webスクレイピングを強化するためのLLMSのパワーを活用します

Webスクレイピングは、オンライン情報を抽出し、開発者が多様なドメイン全体でデータを収集できるようにするための重要な手法のままです。 ChatGroqのような大規模な言語モデル(LLM)の統合は、Webスクレイプ機能を大幅に増幅し、柔軟性と精度を向上させます。この記事では、WebスクレイピングツールとともにLLMSを効果的に活用して、Webページから構造化されたデータを取得する方法を示しています。

LLMSでWebスクレイピング

主要な学習目標:

  • LLMS(たとえば、ChatGroq)をWebスクレイピングツールと統合します。
  • PlaywrightおよびLLMSを使用して、Webページから構造化されたデータを抽出します。
  • LLMを搭載したWebスクレイピング用の環境を構成します。
  • Webコンテンツを処理および変換して構造化された形式に変換します(例:Markdown)。
  • 効率的なデータ抽出のためにWebスクレイピングを自動化および拡張します。

目次:

  • 開発環境を設定します
  • マークダウンとしてWebコンテンツを抽出します
  • 大規模な言語モデル(LLMS)の構成
  • ランディングページのスクレイピング
  • 車のリストを削る
  • 結論
  • よくある質問

開発環境のセットアップ:

開始する前に、環境が正しく構成されていることを確認してください。必要なライブラリをインストールします。

 !PIPインストール-UQQQPIP-Progress -Bar Off#PIPを更新します
!PIPインストール-QQQ Playwright == 1.46.0 -Progress -Bar Off#Browser Automation
!pip install -qqq html2text == 2024.2.26 -progress -bar off#htmlからマークダウン変換へ
!pip install -qqq langchain-groq == 0.1.9 -progress-bar off#llm統合
!劇作家はクロムをインストールします
ログイン後にコピー

このコードスニペットは、PIPを更新し、ブラウザオートメーション用のPlaywright、HTML-to-Markdown変換用のHTML2TEXT、LLM統合用のLangChain-Groq、Playwright用のChromiumをダウンロードします。

必須モジュールのインポート:

必要なモジュールをインポートします。

 Reをインポートします
pprintインポートPprintから
インポートリストの入力からオプション

html2textをインポートします
nest_asyncioをインポートします
PDとしてパンダをインポートします
Google.ColabからImport userDataから
langchain_groqからChatGroqをインポートします
playwright.async_apiからasync_playwrightをインポートします
Pydantic Import Basemodel、Fieldから
TQDMからImport TQDMから

nest_asyncio.apply()
ログイン後にコピー

マークダウンとしてWebコンテンツを取得する:

最初のスクレーピングステップでは、Webコンテンツの取得が含まれます。 Playwrightは、WebページのロードとHTMLの抽出を促進します。

 user_agent = "mozilla/5.0(macintosh; intel mac os x 10_15_7)Applewebkit/537.36(khtml、yike gecko)chrome/128.0.0.0 Safari/537.36" "
playwright = async_playwright()。start()
browser = await playwright.chromium.launch()

Context = await browser.new_context(user_agent = user_agent)

page = await context.new_page()
待望page.goto( "https://playwright.dev/")
content = await page.content()

browser.close()を待っています
playwright.stop()を待っています
印刷(コンテンツ) 
ログイン後にコピー

LLMSでWebスクレイピング

このコードは、Playwrightを使用して、WebページのHTMLコンテンツを取得します。カスタムユーザーエージェントが設定され、ブラウザがURLに移動し、HTMLが抽出されます。その後、ブラウザは無料のリソースに閉じられます。

処理を簡素化するには、HTML2Textを使用してHTMLをマークダウンに変換します。

 markdown_converter = html2text.html2text()
markdown_converter.ignore_links = false
markdown_content = markdown_converter.handle(content)
print(markdown_content) 
ログイン後にコピー

LLMSでWebスクレイピング

大規模な言語モデル(LLMS)のセットアップ:

構造化されたデータ抽出のためにLLMを構成します。 ChatGroqを使用します。

 Model = "llama-3.1-70b-versatile"

llm = chatgroq(温度= 0、model_name = model、api_key = userdata.get( "groq_api_key"))

System_prompt = "" "
あなたは専門家のテキスト抽出器です。 Webページコンテンツから情報を抽出します。
データやその他の出力を変更せずに、常にデータを抽出してください。
"" "

def create_scrape_prompt(page_content:str) - > str:
    f "" "を返す
次のWebページから情報を抽出します。
ログイン後にコピー

{page_content}

 <code>""".strip()</code>
ログイン後にコピー

これにより、特定のモデルとシステムプロンプトを使用してChatGroqをセットアップし、LLMに情報を正確に抽出するように導きます。

(残りのセクション、ランディングページのスクレイピング、スクレイピング車のリスト、結論、およびよくある質問は、上記のセクションと同様のコード説明と画像包含のパターンに従います。

省略されたセクションを含む完全なコードは非常に広範囲になります。この応答は、最初のセットアップと最初の主要なステップの詳細な説明を提供し、全体的なアプローチとスタイルを実証します。特定のセクションが詳しく説明されている場合は、お知らせください。

以上がLLMSでWebスクレイピングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AGNOフレームワークを使用してマルチモーダルAIエージェントを構築する方法は? AGNOフレームワークを使用してマルチモーダルAIエージェントを構築する方法は? Apr 23, 2025 am 11:30 AM

エージェントAIに取り組んでいる間、開発者は速度、柔軟性、リソース効率の間のトレードオフをナビゲートすることがよくあります。私はエージェントAIフレームワークを探索していて、Agnoに出会いました(以前はPhi-でした。

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先します OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先します Apr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

SQLに列を追加する方法は? - 分析Vidhya SQLに列を追加する方法は? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

Andrew Ngによる埋め込みモデルに関する新しいショートコース Andrew Ngによる埋め込みモデルに関する新しいショートコース Apr 15, 2025 am 11:32 AM

埋め込みモデルのパワーのロックを解除する:Andrew Ngの新しいコースに深く飛び込む マシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。 これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

Rocketpyを使用したロケットの起動シミュレーションと分析-AnalyticsVidhya Rocketpyを使用したロケットの起動シミュレーションと分析-AnalyticsVidhya Apr 19, 2025 am 11:12 AM

Rocketpy:A包括的なガイドでロケット発売をシミュレートします この記事では、強力なPythonライブラリであるRocketpyを使用して、高出力ロケット発売をシミュレートすることをガイドします。 ロケットコンポーネントの定義からシミュラの分析まで、すべてをカバーします

Googleは、次の2025年にクラウドで最も包括的なエージェント戦略を発表します Googleは、次の2025年にクラウドで最も包括的なエージェント戦略を発表します Apr 15, 2025 am 11:14 AM

GoogleのAI戦略の基礎としてのGemini Geminiは、GoogleのAIエージェント戦略の基礎であり、高度なマルチモーダル機能を活用して、テキスト、画像、オーディオ、ビデオ、コード全体で応答を処理および生成します。 DeepMによって開発されました

3D自分で印刷できるオープンソースのヒューマノイドロボット:抱きしめる顔を購入する花粉ロボット工学 3D自分で印刷できるオープンソースのヒューマノイドロボット:抱きしめる顔を購入する花粉ロボット工学 Apr 15, 2025 am 11:25 AM

「オープンソースロボットを世界に持ち込むために花粉ロボットを獲得していることを発表して非常にうれしいです」と、Facing FaceはXで述べました。

DeepCoder-14B:O3-MINIおよびO1へのオープンソース競争 DeepCoder-14B:O3-MINIおよびO1へのオープンソース競争 Apr 26, 2025 am 09:07 AM

AIコミュニティの重要な開発において、Agenticaと一緒にAIは、DeepCoder-14Bという名前のオープンソースAIコーディングモデルをリリースしました。 Openaiのようなクローズドソースの競合他社と同等のコード生成機能を提供する

See all articles