首页 web前端 js教程 如何使用 Puppeteer 进行网页抓取:初学者友好指南

如何使用 Puppeteer 进行网页抓取:初学者友好指南

Jan 08, 2025 am 12:46 AM

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

网络抓取是从网站收集数据的极其强大的工具。借助 Puppeteer(Google 的 Node.js 无头浏览器库),您可以自动执行页面导航、单击按钮和提取信息的过程,同时模仿人类浏览行为。本指南将以简单、清晰且可操作的方式引导您了解使用 Puppeteer 进行网页抓取的基本知识。

什么是傀儡师?

Puppeteer 是一个 Node.js 库,可让您控制 Google Chrome(或 Chromium)的无头版本。无头浏览器在没有图形用户界面 (GUI) 的情况下运行,使其速度更快,非常适合抓取等自动化任务。但是,如果您需要直观地查看正在发生的情况,Puppeteer 也可以在完整浏览器模式下运行。

为什么选择 Puppeteer 进行网页抓取?

灵活性:Puppeteer 可以轻松处理动态网站和单页应用程序 (SPA)。
JavaScript 支持:它在页面上执行 JavaScript,这对于抓取现代网络应用程序至关重要。
自动化能力:您可以执行填写表格、单击按钮甚至截屏等任务。

将代理与 Puppeteer 一起使用

抓取网站时,代理对于避免 IP 禁令和访问地理限制内容至关重要。代理充当您的抓取工具和目标网站之间的中介,掩盖您的真实 IP 地址。对于 Puppeteer,您可以通过将代理作为启动参数传递来轻松集成代理:

javascript
复制代码
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理对于扩展抓取工作特别有用。轮换代理可确保每个请求都来自不同的 IP,从而减少检测到的机会。住宅代理以其真实性而闻名,非常适合绕过机器人防御,而数据中心代理速度更快、价格更便宜。选择符合您的抓取需求的类型,并始终测试性能以确保可靠性。

设置 Puppeteer

开始抓取之前,您需要设置 Puppeteer。让我们深入了解分步过程:
第 1 步:安装 Node.js 和 Puppeteer
安装Node.js:从官网下载并安装Node.js。
设置 Puppeteer:打开终端并运行以下命令:
重击
复制代码
npm install puppeteer

这将安装 Puppeteer 和 Chromium,它控制的浏览器。
第 2 步:编写你的第一个 Puppeteer 脚本
创建一个新的 JavaScript 文件 scraper.js。这将容纳您的抓取逻辑。让我们编写一个简单的脚本来打开网页并提取其标题:
javascript
复制代码
const puppeteer = require('puppeteer');

(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();

// 导航到网站
等待 page.goto('https://example.com');

// 提取标题
const title = wait page.title();
console.log(页面标题: ${title});

等待 browser.close();
})();

使用以下命令运行脚本:
重击
复制代码
节点 scraper.js

您刚刚编写了第一个 Puppeteer scraper!

用于抓取的核心 Puppeteer 功能

现在您已经掌握了基础知识,让我们来探索一些用于抓取的关键 Puppeteer 功能。

  1. 导航至页面
    page.goto(url) 方法允许您打开任何 URL。如果需要,添加超时设置等选项:
    javascript
    复制代码
    wait page.goto('https://example.com', { timeout: 60000 });

  2. 选择元素
    使用 CSS 选择器来精确定位页面上的元素。 Puppeteer 提供了如下方法:
    第一个匹配的 page.$(selector)
    page.$$(选择器) 适用于所有匹配
    示例:
    javascript
    复制代码
    const 元素=await page.$('h1');
    const text = wait page.evaluate(el => el.textContent, element);
    console.log(标题: ${text});

  3. 与元素互动
    模拟用户交互,例如点击和键入:
    javascript
    复制代码
    等待 page.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. 等待元素
    网页以不同的速度加载。 Puppeteer 允许您在继续操作之前等待元素:
    javascript
    复制代码
    等待 page.waitForSelector('#dynamic-content');

  5. 截图
    可视化调试或将数据保存为图像很容易:
    javascript
    复制代码
    wait page.screenshot({ path: 'screenshot.png', fullPage: true });

处理动态内容

当今许多网站使用 JavaScript 动态加载内容。 Puppeteer 在这里大放异彩,因为它执行 JavaScript,允许您抓取页面源代码中可能不可见的内容。
示例:提取动态数据
javascript
复制代码
等待 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');

const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('头条新闻:', 头条新闻);

处理验证码和机器人检测

一些网站采取了阻止机器人的措施。 Puppeteer 可以帮助绕过简单的检查:
使用隐身模式:安装 puppeteer-extra 插件:
重击
复制代码
npm install puppeteer-extra puppeteer-extra-plugin-stealth
将其添加到您的脚本中:
javascript
复制代码
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

模仿人类行为:随机化鼠标移动和打字速度等动作,以显得更加人性化。
轮换用户代理:根据每个请求更改浏览器的用户代理:
javascript
复制代码
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

保存抓取的数据

提取数据后,您可能想要保存它。以下是一些常见的格式:
JSON:
javascript
复制代码
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV:使用像 csv-writer 这样的库:
重击
复制代码
npm 安装 csv-writer
javascript
复制代码
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
路径: 'data.csv',
标题:[
{ id: '姓名', title: '姓名' },
{ id: '类型', title: '类型' }
]
});

const 记录 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 文件已写入。'));
道德网络抓取实践
在抓取网站之前,请记住这些道德准则:
检查服务条款:始终确保网站允许抓取。
尊重速率限制:避免在短时间内发送太多请求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 来间隔请求:
javascript
复制代码
等待页面.waitForTimeout(2000); // 等待2秒

避免敏感数据:切勿抓取个人或私人信息。

常见问题故障排除

页面无法正确加载:尝试添加更长的超时或启用完整浏览器模式:
javascript
复制代码
const browser = wait puppeteer.launch({ headless: false });

选择器不起作用:使用浏览器开发人员工具(Ctrl Shift C)检查网站以确认选择器。
被验证码阻止:使用隐身插件并模仿人类行为。

常见问题 (FAQ)

  1. Puppeteer 免费吗? 是的,Puppeteer 是开源的并且可以免费使用。
  2. Puppeteer 可以抓取大量 JavaScript 的网站吗? 绝对地! Puppeteer 执行 JavaScript,非常适合抓取动态网站。
  3. 网页抓取合法吗? 这取决于。在抓取之前请务必检查网站的服务条款。
  4. Puppeteer 可以绕过验证码吗? Puppeteer 可以处理基本的验证码挑战,但高级挑战可能需要第三方工具。

以上是如何使用 Puppeteer 进行网页抓取:初学者友好指南的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1664
14
CakePHP 教程
1422
52
Laravel 教程
1316
25
PHP教程
1268
29
C# 教程
1241
24
神秘的JavaScript:它的作用以及为什么重要 神秘的JavaScript:它的作用以及为什么重要 Apr 09, 2025 am 12:07 AM

JavaScript是现代Web开发的基石,它的主要功能包括事件驱动编程、动态内容生成和异步编程。1)事件驱动编程允许网页根据用户操作动态变化。2)动态内容生成使得页面内容可以根据条件调整。3)异步编程确保用户界面不被阻塞。JavaScript广泛应用于网页交互、单页面应用和服务器端开发,极大地提升了用户体验和跨平台开发的灵活性。

JavaScript的演变:当前的趋势和未来前景 JavaScript的演变:当前的趋势和未来前景 Apr 10, 2025 am 09:33 AM

JavaScript的最新趋势包括TypeScript的崛起、现代框架和库的流行以及WebAssembly的应用。未来前景涵盖更强大的类型系统、服务器端JavaScript的发展、人工智能和机器学习的扩展以及物联网和边缘计算的潜力。

JavaScript引擎:比较实施 JavaScript引擎:比较实施 Apr 13, 2025 am 12:05 AM

不同JavaScript引擎在解析和执行JavaScript代码时,效果会有所不同,因为每个引擎的实现原理和优化策略各有差异。1.词法分析:将源码转换为词法单元。2.语法分析:生成抽象语法树。3.优化和编译:通过JIT编译器生成机器码。4.执行:运行机器码。V8引擎通过即时编译和隐藏类优化,SpiderMonkey使用类型推断系统,导致在相同代码上的性能表现不同。

Python vs. JavaScript:学习曲线和易用性 Python vs. JavaScript:学习曲线和易用性 Apr 16, 2025 am 12:12 AM

Python更适合初学者,学习曲线平缓,语法简洁;JavaScript适合前端开发,学习曲线较陡,语法灵活。1.Python语法直观,适用于数据科学和后端开发。2.JavaScript灵活,广泛用于前端和服务器端编程。

JavaScript:探索网络语言的多功能性 JavaScript:探索网络语言的多功能性 Apr 11, 2025 am 12:01 AM

JavaScript是现代Web开发的核心语言,因其多样性和灵活性而广泛应用。1)前端开发:通过DOM操作和现代框架(如React、Vue.js、Angular)构建动态网页和单页面应用。2)服务器端开发:Node.js利用非阻塞I/O模型处理高并发和实时应用。3)移动和桌面应用开发:通过ReactNative和Electron实现跨平台开发,提高开发效率。

如何使用Next.js(前端集成)构建多租户SaaS应用程序 如何使用Next.js(前端集成)构建多租户SaaS应用程序 Apr 11, 2025 am 08:22 AM

本文展示了与许可证确保的后端的前端集成,并使用Next.js构建功能性Edtech SaaS应用程序。 前端获取用户权限以控制UI的可见性并确保API要求遵守角色库

使用Next.js(后端集成)构建多租户SaaS应用程序 使用Next.js(后端集成)构建多租户SaaS应用程序 Apr 11, 2025 am 08:23 AM

我使用您的日常技术工具构建了功能性的多租户SaaS应用程序(一个Edtech应用程序),您可以做同样的事情。 首先,什么是多租户SaaS应用程序? 多租户SaaS应用程序可让您从唱歌中为多个客户提供服务

从C/C到JavaScript:所有工作方式 从C/C到JavaScript:所有工作方式 Apr 14, 2025 am 12:05 AM

从C/C 转向JavaScript需要适应动态类型、垃圾回收和异步编程等特点。1)C/C 是静态类型语言,需手动管理内存,而JavaScript是动态类型,垃圾回收自动处理。2)C/C 需编译成机器码,JavaScript则为解释型语言。3)JavaScript引入闭包、原型链和Promise等概念,增强了灵活性和异步编程能力。

See all articles