ホームページ ウェブフロントエンド jsチュートリアル Puppeteer を使用して Web スクレイピングを行う方法: 初心者向けガイド

Puppeteer を使用して Web スクレイピングを行う方法: 初心者向けガイド

Jan 08, 2025 am 12:46 AM

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

Web スクレイピングは、Web サイトからデータを収集するための非常に強力なツールです。 Node.js 用の Google のヘッドレス ブラウザ ライブラリである Puppeteer を使用すると、人間のブラウジング動作を模倣しながら、ページの移動、ボタンのクリック、情報の抽出のプロセスを自動化できます。このガイドでは、Puppeteer を使用した Web スクレイピングの基本を、シンプル、明確、実用的な方法で説明します。

パペッティアとは何ですか?

Puppeteer は、Google Chrome (または Chromium) のヘッドレス バージョンを制御できる Node.js ライブラリです。ヘッドレス ブラウザはグラフィカル ユーザー インターフェイス (GUI) なしで実行されるため、高速になり、スクレイピングなどの自動化タスクに最適です。ただし、何が起こっているかを視覚的に確認する必要がある場合は、Puppeteer をフルブラウザ モードで実行することもできます。

Web スクレイピングに Puppeteer を選ぶ理由?

柔軟性: Puppeteer は、動的な Web サイトやシングルページ アプリケーション (SPA) を簡単に処理します。
JavaScript のサポート: ページ上で JavaScript を実行します。これは、最新の Web アプリをスクレイピングするために不可欠です。
自動化機能: フォームへの記入、ボタンのクリック、スクリーンショットの撮影などのタスクを実行できます。

Puppeteer でのプロキシの使用

Web サイトをスクレイピングする場合、IP 禁止を回避し、地理的に制限されたコンテンツにアクセスするには、プロキシが不可欠です。プロキシはスクレイパーとターゲット Web サイトの間の仲介者として機能し、実際の IP アドレスをマスクします。 Puppeteer の場合、プロキシを起動引数として渡すことで簡単に統合できます:

JavaScript
コードをコピー
const browser = await puppeteer.launch({
引数: ['--proxy-server=あなたのプロキシサーバー:ポート']
});
プロキシは、スクレイピング作業をスケールするのに特に役立ちます。プロキシをローテーションすることで、各リクエストが異なる IP から送信されるようになり、検出の可能性が低くなります。信頼性が高いことで知られる住宅用プロキシはボット防御を回避するのに優れていますが、データセンター プロキシは高速で手頃な価格です。スクレイピングのニーズに合ったタイプを選択し、常にパフォーマンスをテストして信頼性を確保してください。

Puppeteer のセットアップ

スクレイピングを開始する前に、Puppeteer をセットアップする必要があります。段階的なプロセスを見てみましょう:
ステップ 1: Node.js と Puppeteer をインストールする
Node.js のインストール: 公式 Web サイトから Node.js をダウンロードしてインストールします。
Puppeteer のセットアップ: ターミナルを開いて次のコマンドを実行します:
バッシュ
コードをコピー
npm install puppeteer

これにより、Puppeteer と、それが制御するブラウザである Chromium がインストールされます。
ステップ 2: 最初の人形遣いスクリプトを作成する
新しい JavaScript ファイル、scraper.js を作成します。これにはスクレイピング ロジックが格納されます。 Web ページを開いてそのタイトルを抽出する簡単なスクリプトを書いてみましょう:
JavaScript
コードをコピー
const puppeteer = require('puppeteer');

(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();

// Web サイトに移動します
await page.goto('https://example.com');

// タイトルを抽出します
const title = await page.title();
console.log(ページタイトル: ${title});

ブラウザを待つ.close();
})();

以下を使用してスクリプトを実行します:
バッシュ
コードをコピー
ノードスクレーパー.js

これで、初めての Puppeteer スクレイパーが作成されました!

スクレイピングのための Puppeteer のコア機能

基本を理解したので、スクレイピングに使用するいくつかの主要な Puppeteer 機能を見てみましょう。

  1. ページへの移動
    page.goto(url) メソッドを使用すると、任意の URL を開くことができます。必要に応じて、タイムアウト設定などのオプションを追加します:
    JavaScript
    コードをコピー
    await page.goto('https://example.com', { タイムアウト: 60000 });

  2. 要素の選択
    CSS セレクターを使用して、ページ上の要素を正確に指定します。 Puppeteer は次のようなメソッドを提供します:
    最初の一致の page.$(selector)
    すべての一致に対する page.$$(selector)
    例:
    JavaScript
    コードをコピー
    const 要素 = await page.$('h1');
    const text = await page.evaluate(el => el.textContent, element);
    console.log(見出し: ${text});

  3. 要素との対話
    クリックや入力などのユーザー操作をシミュレートします:
    JavaScript
    コードをコピー
    await page.click('#submit-button');
    await page.type('#search-box', '人形遣いのスクレイピング');

  4. 要素を待機中
    Web ページの読み込み速度は異なります。 Puppeteer では、続行する前に要素を待つことができます:
    JavaScript
    コードをコピー
    await page.waitForSelector('#dynamic-content');

  5. スクリーンショットを撮る
    視覚的なデバッグやデータを画像として保存するのは簡単です:
    JavaScript
    コードをコピー
    await page.screenshot({ path: 'screenshot.png', fullPage: true });

動的コンテンツの処理

現在、多くの Web サイトでは JavaScript を使用してコンテンツを動的に読み込みます。ここで Puppeteer が優れているのは、JavaScript を実行し、ページのソースに表示されない可能性のあるコンテンツをスクレイピングできるためです。
例: 動的データの抽出
JavaScript
コードをコピー
await page.goto('https://news.ycombinator.com');
await page.waitForSelector('.storylink');

constHeadings = await page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('見出し:', 見出し);

CAPTCHA とボット検出への対処

一部の Web サイトでは、ボットをブロックするための措置を講じています。 Puppeteer は簡単なチェックを回避するのに役立ちます:
ステルス モードを使用する: puppeteer-extra プラグインをインストールします:
バッシュ
コードをコピー
npm install puppeteer-extra puppeteer-extra-plugin-stealth
それをスクリプトに追加します:
JavaScript
コードをコピー
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

人間の動作を模倣: マウスの動きや入力速度などの動作をランダム化して、より人間らしく見えるようにします。
ユーザー エージェントのローテーション: リクエストごとにブラウザのユーザー エージェントを変更します:
JavaScript
コードをコピー
await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

スクレイピングされたデータの保存

データを抽出したら、保存する必要があるでしょう。一般的な形式をいくつか示します:
JSON:
JavaScript
コードをコピー
const fs = require('fs');
const data = { 名前: '人形遣い'、タイプ: 'ライブラリ' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV: csv-writer:
のようなライブラリを使用します。 バッシュ
コードをコピー
npm install csv-writer
JavaScript
コードをコピー
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
パス: 'data.csv',
ヘッダー: [
{ id: '名前', title: '名前' },
{ id: 'タイプ'、タイトル: 'タイプ' }
]
});

const records = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV ファイルが書き込まれました。'));
倫理的なウェブスクレイピングの実践
Web サイトをスクレイピングする前に、次の倫理ガイドラインに留意してください:
利用規約を確認してください: Web サイトでスクレイピングが許可されていることを必ず確認してください。
レート制限を尊重する: 短時間に大量のリクエストを送信しないようにします。 setTimeout または Puppeteer の page.waitForTimeout() を使用してリクエストの間隔を空けます:
JavaScript
コードをコピー
await page.waitForTimeout(2000); // 2秒待ちます

機密データを避ける: 個人情報や個人情報を決して収集しないでください。

一般的な問題のトラブルシューティング

ページが正しく読み込まれません: より長いタイムアウトを追加するか、フル ブラウザ モードを有効にしてみてください:
JavaScript
コードをコピー
const browser = await puppeteer.launch({ headless: false });

セレクターが機能しない: ブラウザー開発者ツール (Ctrl Shift C) を使用して Web サイトを検査し、セレクターを確認します。
CAPTCHA によってブロックされています: ステルス プラグインを使用し、人間の動作を模倣します。

よくある質問 (FAQ)

  1. Puppeteer は無料ですか? はい、Puppeteer はオープンソースであり、無料で使用できます。
  2. Puppeteer は JavaScript を多用した Web サイトをスクレイピングできますか? 絶対に! Puppeteer は JavaScript を実行するため、動的サイトのスクレイピングに最適です。
  3. Webスクレイピングは合法ですか? 場合によります。スクレイピングする前に、必ず Web サイトの利用規約を確認してください。
  4. Puppeteer は CAPTCHA を回避できますか? Puppeteer は基本的な CAPTCHA チャレンジを処理できますが、高度なチャレンジにはサードパーティ ツールが必要になる場合があります。

以上がPuppeteer を使用して Web スクレイピングを行う方法: 初心者向けガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

JavaScriptエンジン:実装の比較 JavaScriptエンジン:実装の比較 Apr 13, 2025 am 12:05 AM

さまざまなJavaScriptエンジンは、各エンジンの実装原則と最適化戦略が異なるため、JavaScriptコードを解析および実行するときに異なる効果をもたらします。 1。語彙分析:ソースコードを語彙ユニットに変換します。 2。文法分析:抽象的な構文ツリーを生成します。 3。最適化とコンパイル:JITコンパイラを介してマシンコードを生成します。 4。実行:マシンコードを実行します。 V8エンジンはインスタントコンピレーションと非表示クラスを通じて最適化され、Spidermonkeyはタイプ推論システムを使用して、同じコードで異なるパフォーマンスパフォーマンスをもたらします。

Python vs. JavaScript:学習曲線と使いやすさ Python vs. JavaScript:学習曲線と使いやすさ Apr 16, 2025 am 12:12 AM

Pythonは、スムーズな学習曲線と簡潔な構文を備えた初心者により適しています。 JavaScriptは、急な学習曲線と柔軟な構文を備えたフロントエンド開発に適しています。 1。Python構文は直感的で、データサイエンスやバックエンド開発に適しています。 2。JavaScriptは柔軟で、フロントエンドおよびサーバー側のプログラミングで広く使用されています。

JavaScript:Web言語の汎用性の調査 JavaScript:Web言語の汎用性の調査 Apr 11, 2025 am 12:01 AM

JavaScriptは、現代のWeb開発のコア言語であり、その多様性と柔軟性に広く使用されています。 1)フロントエンド開発:DOM操作と最新のフレームワーク(React、Vue.JS、Angularなど)を通じて、動的なWebページとシングルページアプリケーションを構築します。 2)サーバー側の開発:node.jsは、非ブロッキングI/Oモデルを使用して、高い並行性とリアルタイムアプリケーションを処理します。 3)モバイルおよびデスクトップアプリケーション開発:クロスプラットフォーム開発は、反応および電子を通じて実現され、開発効率を向上させます。

next.jsを使用してマルチテナントSaaSアプリケーションを構築する方法(フロントエンド統合) next.jsを使用してマルチテナントSaaSアプリケーションを構築する方法(フロントエンド統合) Apr 11, 2025 am 08:22 AM

この記事では、許可によって保護されたバックエンドとのフロントエンド統合を示し、next.jsを使用して機能的なedtech SaaSアプリケーションを構築します。 FrontEndはユーザーのアクセス許可を取得してUIの可視性を制御し、APIリクエストがロールベースに付着することを保証します

next.jsを使用してマルチテナントSaaSアプリケーションを構築する(バックエンド統合) next.jsを使用してマルチテナントSaaSアプリケーションを構築する(バックエンド統合) Apr 11, 2025 am 08:23 AM

私はあなたの日常的な技術ツールを使用して機能的なマルチテナントSaaSアプリケーション(EDTECHアプリ)を作成しましたが、あなたは同じことをすることができます。 まず、マルチテナントSaaSアプリケーションとは何ですか? マルチテナントSaaSアプリケーションを使用すると、Singの複数の顧客にサービスを提供できます

C/CからJavaScriptへ:すべてがどのように機能するか C/CからJavaScriptへ:すべてがどのように機能するか Apr 14, 2025 am 12:05 AM

C/CからJavaScriptへのシフトには、動的なタイピング、ゴミ収集、非同期プログラミングへの適応が必要です。 1)C/Cは、手動メモリ管理を必要とする静的に型付けられた言語であり、JavaScriptは動的に型付けされ、ごみ収集が自動的に処理されます。 2)C/Cはマシンコードにコンパイルする必要がありますが、JavaScriptは解釈言語です。 3)JavaScriptは、閉鎖、プロトタイプチェーン、約束などの概念を導入します。これにより、柔軟性と非同期プログラミング機能が向上します。

JavaScriptとWeb:コア機能とユースケース JavaScriptとWeb:コア機能とユースケース Apr 18, 2025 am 12:19 AM

Web開発におけるJavaScriptの主な用途には、クライアントの相互作用、フォーム検証、非同期通信が含まれます。 1)DOM操作による動的なコンテンツの更新とユーザーインタラクション。 2)ユーザーエクスペリエンスを改善するためにデータを提出する前に、クライアントの検証が実行されます。 3)サーバーとのリフレッシュレス通信は、AJAXテクノロジーを通じて達成されます。

JavaScript in Action:実際の例とプロジェクト JavaScript in Action:実際の例とプロジェクト Apr 19, 2025 am 12:13 AM

現実世界でのJavaScriptのアプリケーションには、フロントエンドとバックエンドの開発が含まれます。 1)DOM操作とイベント処理を含むTODOリストアプリケーションを構築して、フロントエンドアプリケーションを表示します。 2)node.jsを介してRestfulapiを構築し、バックエンドアプリケーションをデモンストレーションします。

See all articles