node.js中的网络刮擦
核心要点
- Node.js 的网页抓取涉及从远程服务器下载源代码并从中提取数据,可以使用
cheerio
和request
等模块来实现。 -
cheerio
模块实现了 jQuery 的一个子集,可以从 HTML 字符串构建 DOM 并进行解析,但它可能难以处理结构不良的 HTML。 - 通过结合
request
和cheerio
可以构建完整的网页抓取程序来提取网页的特定元素,但是处理动态内容、避免被封禁以及处理需要登录或使用 CAPTCHA 的网站会更加复杂,可能需要额外的工具或策略。
网页抓取程序是通过编程方式访问网页并从中提取数据的软件。由于内容重复等问题,网页抓取是一个有点争议的话题。大多数网站所有者更倾向于通过公开可用的 API 访问其数据。不幸的是,许多网站提供的 API 质量很差,甚至根本没有 API。这迫使许多开发人员转向网页抓取。本文将教你如何在 Node.js 中实现你自己的网页抓取程序。网页抓取的第一步是从远程服务器下载源代码。在“在 Node.js 中发出 HTTP 请求”中,读者学习了如何使用 request
模块下载页面。以下示例快速回顾了在 Node.js 中发出 GET 请求的方法。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
网页抓取的第二步,也是更困难的一步,是从下载的源代码中提取数据。在客户端,使用选择器 API 或 jQuery 等库可以轻松完成此任务。不幸的是,这些解决方案依赖于可以查询 DOM 的假设。遗憾的是,Node.js 没有提供 DOM。或者有吗?
Cheerio 模块
虽然 Node.js 没有内置 DOM,但有一些模块可以从 HTML 源代码字符串构建 DOM。两个流行的 DOM 模块是 cheerio
和 jsdom
。本文重点介绍 cheerio
,可以使用以下命令安装:
npm install cheerio
cheerio
模块实现了 jQuery 的一个子集,这意味着许多开发人员可以快速上手。事实上,cheerio
与 jQuery 非常相似,你很容易发现自己试图使用 cheerio
中未实现的 jQuery 函数。以下示例展示了如何使用 cheerio
解析 HTML 字符串。第一行将 cheerio
导入程序。html
变量保存要解析的 HTML 片段。在第 3 行,使用 cheerio
解析 HTML。结果赋值给 $
变量。选择美元符号是因为它传统上用于 jQuery。第 4 行使用 CSS 样式选择器选择 <code><ul>
元素。最后,使用 html()
方法打印列表的内部 HTML。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
限制
cheerio
正在积极开发中,并且一直在改进。但是,它仍然有一些限制。cheerio
最令人沮丧的方面是 HTML 解析器。HTML 解析是一个难题,并且有很多网页包含不良的 HTML。虽然 cheerio
不会在这些页面上崩溃,但你可能会发现自己无法选择元素。这使得难以确定错误在于你的选择器还是页面本身。
抓取 JSPro
以下示例结合 request
和 cheerio
来构建一个完整的网页抓取程序。该示例抓取程序提取 JSPro 首页上所有文章的标题和 URL。前两行将所需的模块导入示例。第 3 到第 5 行下载 JSPro 首页的源代码。然后将源代码传递给 cheerio
进行解析。
npm install cheerio
如果你查看 JSPro 源代码,你会注意到每个文章标题都是一个包含在类为 entry-title
的 <a></a>
元素中的链接。第 7 行的选择器选择所有文章链接。然后使用 each()
函数遍历所有文章。最后,文章标题和 URL 分别从链接的文本和 href
属性中获取。
结论
本文向你展示了如何在 Node.js 中创建一个简单的网页抓取程序。请注意,这不是抓取网页的唯一方法。还有其他技术,例如使用无头浏览器,它们功能更强大,但可能会影响简单性和/或速度。请关注即将发表的关于 PhantomJS 无头浏览器的文章。
Node.js 网页抓取常见问题 (FAQ)
如何在 Node.js 网页抓取中处理动态内容?
在 Node.js 中处理动态内容可能有点棘手,因为内容是异步加载的。您可以使用像 Puppeteer 这样的库,它是一个 Node.js 库,提供一个高级 API 来通过 DevTools 协议控制 Chrome 或 Chromium。Puppeteer 默认情况下以无头模式运行,但可以配置为运行完整的(非无头)Chrome 或 Chromium。这允许您通过模拟用户交互来抓取动态内容。
如何避免在网页抓取时被封禁?
如果网站检测到异常流量,网页抓取有时会导致您的 IP 被封禁。为避免这种情况,您可以使用一些技术,例如轮换您的 IP 地址、使用延迟,甚至使用自动处理这些问题的抓取 API。
如何从需要登录的网站抓取数据?
要从需要登录的网站抓取数据,您可以使用 Puppeteer。Puppeteer 可以通过填写登录表单并提交来模拟登录过程。登录后,您可以导航到所需的页面并抓取数据。
如何将抓取的数据保存到数据库?
抓取数据后,您可以使用您选择的数据库的数据库客户端。例如,如果您使用的是 MongoDB,您可以使用 MongoDB Node.js 客户端连接到您的数据库并保存数据。
如何从带有分页的网站抓取数据?
要从带有分页的网站抓取数据,您可以使用循环来浏览页面。在每次迭代中,您可以从当前页面抓取数据,然后单击“下一页”按钮导航到下一页。
如何从带有无限滚动的网站抓取数据?
要从带有无限滚动的网站抓取数据,您可以使用 Puppeteer 模拟向下滚动操作。您可以使用循环不断向下滚动,直到不再加载新数据。
如何在网页抓取中处理错误?
错误处理在网页抓取中至关重要。您可以使用 try-catch 块来处理错误。在 catch 块中,您可以记录错误消息,这将帮助您调试问题。
如何从使用 AJAX 的网站抓取数据?
要从使用 AJAX 的网站抓取数据,您可以使用 Puppeteer。Puppeteer 可以等待 AJAX 调用完成,然后抓取数据。
如何加快 Node.js 中的网页抓取速度?
要加快网页抓取速度,您可以使用并行处理等技术,在不同的选项卡中打开多个页面并同时从它们抓取数据。但是,请注意不要用过多的请求来过载网站,因为这可能会导致您的 IP 被封禁。
如何从使用 CAPTCHA 的网站抓取数据?
从使用 CAPTCHA 的网站抓取数据可能具有挑战性。您可以使用像 2Captcha 这样的服务,它们提供一个 API 来解决 CAPTCHA。但是,请记住,在某些情况下,这可能是非法或不道德的。始终尊重网站的服务条款。
以上是node.js中的网络刮擦的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

JavaScript是现代Web开发的基石,它的主要功能包括事件驱动编程、动态内容生成和异步编程。1)事件驱动编程允许网页根据用户操作动态变化。2)动态内容生成使得页面内容可以根据条件调整。3)异步编程确保用户界面不被阻塞。JavaScript广泛应用于网页交互、单页面应用和服务器端开发,极大地提升了用户体验和跨平台开发的灵活性。

Python和JavaScript开发者的薪资没有绝对的高低,具体取决于技能和行业需求。1.Python在数据科学和机器学习领域可能薪资更高。2.JavaScript在前端和全栈开发中需求大,薪资也可观。3.影响因素包括经验、地理位置、公司规模和特定技能。

学习JavaScript不难,但有挑战。1)理解基础概念如变量、数据类型、函数等。2)掌握异步编程,通过事件循环实现。3)使用DOM操作和Promise处理异步请求。4)避免常见错误,使用调试技巧。5)优化性能,遵循最佳实践。

实现视差滚动和元素动画效果的探讨本文将探讨如何实现类似资生堂官网(https://www.shiseido.co.jp/sb/wonderland/)中�...

JavaScript的最新趋势包括TypeScript的崛起、现代框架和库的流行以及WebAssembly的应用。未来前景涵盖更强大的类型系统、服务器端JavaScript的发展、人工智能和机器学习的扩展以及物联网和边缘计算的潜力。

如何在JavaScript中将具有相同ID的数组元素合并到一个对象中?在处理数据时,我们常常会遇到需要将具有相同ID�...

深入探讨console.log输出差异的根源本文将分析一段代码中console.log函数输出结果的差异,并解释其背后的原因。�...
