如何使用 Puppeteer 进行网页抓取:初学者友好指南
网络抓取是从网站收集数据的极其强大的工具。借助 Puppeteer(Google 的 Node.js 无头浏览器库),您可以自动执行页面导航、单击按钮和提取信息的过程,同时模仿人类浏览行为。本指南将以简单、清晰且可操作的方式引导您了解使用 Puppeteer 进行网页抓取的基本知识。
什么是傀儡师?
Puppeteer 是一个 Node.js 库,可让您控制 Google Chrome(或 Chromium)的无头版本。无头浏览器在没有图形用户界面 (GUI) 的情况下运行,使其速度更快,非常适合抓取等自动化任务。但是,如果您需要直观地查看正在发生的情况,Puppeteer 也可以在完整浏览器模式下运行。
为什么选择 Puppeteer 进行网页抓取?
灵活性:Puppeteer 可以轻松处理动态网站和单页应用程序 (SPA)。
JavaScript 支持:它在页面上执行 JavaScript,这对于抓取现代网络应用程序至关重要。
自动化能力:您可以执行填写表格、单击按钮甚至截屏等任务。
将代理与 Puppeteer 一起使用
抓取网站时,代理对于避免 IP 禁令和访问地理限制内容至关重要。代理充当您的抓取工具和目标网站之间的中介,掩盖您的真实 IP 地址。对于 Puppeteer,您可以通过将代理作为启动参数传递来轻松集成代理:
javascript
复制代码
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理对于扩展抓取工作特别有用。轮换代理可确保每个请求都来自不同的 IP,从而减少检测到的机会。住宅代理以其真实性而闻名,非常适合绕过机器人防御,而数据中心代理速度更快、价格更便宜。选择符合您的抓取需求的类型,并始终测试性能以确保可靠性。
设置 Puppeteer
开始抓取之前,您需要设置 Puppeteer。让我们深入了解分步过程:
第 1 步:安装 Node.js 和 Puppeteer
安装Node.js:从官网下载并安装Node.js。
设置 Puppeteer:打开终端并运行以下命令:
重击
复制代码
npm install puppeteer
这将安装 Puppeteer 和 Chromium,它控制的浏览器。
第 2 步:编写你的第一个 Puppeteer 脚本
创建一个新的 JavaScript 文件 scraper.js。这将容纳您的抓取逻辑。让我们编写一个简单的脚本来打开网页并提取其标题:
javascript
复制代码
const puppeteer = require('puppeteer');
(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();
// 导航到网站
等待 page.goto('https://example.com');
// 提取标题
const title = wait page.title();
console.log(页面标题: ${title});
等待 browser.close();
})();
使用以下命令运行脚本:
重击
复制代码
节点 scraper.js
您刚刚编写了第一个 Puppeteer scraper!
用于抓取的核心 Puppeteer 功能
现在您已经掌握了基础知识,让我们来探索一些用于抓取的关键 Puppeteer 功能。
导航至页面
page.goto(url) 方法允许您打开任何 URL。如果需要,添加超时设置等选项:
javascript
复制代码
wait page.goto('https://example.com', { timeout: 60000 });选择元素
使用 CSS 选择器来精确定位页面上的元素。 Puppeteer 提供了如下方法:
第一个匹配的 page.$(selector)
page.$$(选择器) 适用于所有匹配
示例:
javascript
复制代码
const 元素=await page.$('h1');
const text = wait page.evaluate(el => el.textContent, element);
console.log(标题: ${text});与元素互动
模拟用户交互,例如点击和键入:
javascript
复制代码
等待 page.click('#submit-button');
wait page.type('#search-box', 'Puppeteer scraping');等待元素
网页以不同的速度加载。 Puppeteer 允许您在继续操作之前等待元素:
javascript
复制代码
等待 page.waitForSelector('#dynamic-content');截图
可视化调试或将数据保存为图像很容易:
javascript
复制代码
wait page.screenshot({ path: 'screenshot.png', fullPage: true });
处理动态内容
当今许多网站使用 JavaScript 动态加载内容。 Puppeteer 在这里大放异彩,因为它执行 JavaScript,允许您抓取页面源代码中可能不可见的内容。
示例:提取动态数据
javascript
复制代码
等待 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');
const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('头条新闻:', 头条新闻);
处理验证码和机器人检测
一些网站采取了阻止机器人的措施。 Puppeteer 可以帮助绕过简单的检查:
使用隐身模式:安装 puppeteer-extra 插件:
重击
复制代码
npm install puppeteer-extra puppeteer-extra-plugin-stealth
将其添加到您的脚本中:
javascript
复制代码
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());
模仿人类行为:随机化鼠标移动和打字速度等动作,以显得更加人性化。
轮换用户代理:根据每个请求更改浏览器的用户代理:
javascript
复制代码
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');
保存抓取的数据
提取数据后,您可能想要保存它。以下是一些常见的格式:
JSON:
javascript
复制代码
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));
CSV:使用像 csv-writer 这样的库:
重击
复制代码
npm 安装 csv-writer
javascript
复制代码
const createCsvWriter = require('csv-writer').createObjectCsvWriter;
const csvWriter = createCsvWriter({
路径: 'data.csv',
标题:[
{ id: '姓名', title: '姓名' },
{ id: '类型', title: '类型' }
]
});
const 记录 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 文件已写入。'));
道德网络抓取实践
在抓取网站之前,请记住这些道德准则:
检查服务条款:始终确保网站允许抓取。
尊重速率限制:避免在短时间内发送太多请求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 来间隔请求:
javascript
复制代码
等待页面.waitForTimeout(2000); // 等待2秒
避免敏感数据:切勿抓取个人或私人信息。
常见问题故障排除
页面无法正确加载:尝试添加更长的超时或启用完整浏览器模式:
javascript
复制代码
const browser = wait puppeteer.launch({ headless: false });
选择器不起作用:使用浏览器开发人员工具(Ctrl Shift C)检查网站以确认选择器。
被验证码阻止:使用隐身插件并模仿人类行为。
常见问题 (FAQ)
- Puppeteer 免费吗? 是的,Puppeteer 是开源的并且可以免费使用。
- Puppeteer 可以抓取大量 JavaScript 的网站吗? 绝对地! Puppeteer 执行 JavaScript,非常适合抓取动态网站。
- 网页抓取合法吗? 这取决于。在抓取之前请务必检查网站的服务条款。
- Puppeteer 可以绕过验证码吗? Puppeteer 可以处理基本的验证码挑战,但高级挑战可能需要第三方工具。
以上是如何使用 Puppeteer 进行网页抓取:初学者友好指南的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

JavaScript是现代Web开发的基石,它的主要功能包括事件驱动编程、动态内容生成和异步编程。1)事件驱动编程允许网页根据用户操作动态变化。2)动态内容生成使得页面内容可以根据条件调整。3)异步编程确保用户界面不被阻塞。JavaScript广泛应用于网页交互、单页面应用和服务器端开发,极大地提升了用户体验和跨平台开发的灵活性。

JavaScript的最新趋势包括TypeScript的崛起、现代框架和库的流行以及WebAssembly的应用。未来前景涵盖更强大的类型系统、服务器端JavaScript的发展、人工智能和机器学习的扩展以及物联网和边缘计算的潜力。

不同JavaScript引擎在解析和执行JavaScript代码时,效果会有所不同,因为每个引擎的实现原理和优化策略各有差异。1.词法分析:将源码转换为词法单元。2.语法分析:生成抽象语法树。3.优化和编译:通过JIT编译器生成机器码。4.执行:运行机器码。V8引擎通过即时编译和隐藏类优化,SpiderMonkey使用类型推断系统,导致在相同代码上的性能表现不同。

Python更适合初学者,学习曲线平缓,语法简洁;JavaScript适合前端开发,学习曲线较陡,语法灵活。1.Python语法直观,适用于数据科学和后端开发。2.JavaScript灵活,广泛用于前端和服务器端编程。

JavaScript是现代Web开发的核心语言,因其多样性和灵活性而广泛应用。1)前端开发:通过DOM操作和现代框架(如React、Vue.js、Angular)构建动态网页和单页面应用。2)服务器端开发:Node.js利用非阻塞I/O模型处理高并发和实时应用。3)移动和桌面应用开发:通过ReactNative和Electron实现跨平台开发,提高开发效率。

本文展示了与许可证确保的后端的前端集成,并使用Next.js构建功能性Edtech SaaS应用程序。 前端获取用户权限以控制UI的可见性并确保API要求遵守角色库

我使用您的日常技术工具构建了功能性的多租户SaaS应用程序(一个Edtech应用程序),您可以做同样的事情。 首先,什么是多租户SaaS应用程序? 多租户SaaS应用程序可让您从唱歌中为多个客户提供服务

从C/C 转向JavaScript需要适应动态类型、垃圾回收和异步编程等特点。1)C/C 是静态类型语言,需手动管理内存,而JavaScript是动态类型,垃圾回收自动处理。2)C/C 需编译成机器码,JavaScript则为解释型语言。3)JavaScript引入闭包、原型链和Promise等概念,增强了灵活性和异步编程能力。
