目錄
限制
如何在 Node.js 網頁抓取中處理動態內容?
如何避免在網頁抓取時被封禁?
如何從需要登錄的網站抓取數據?
如何將抓取的數據保存到數據庫?
如何從帶有分頁的網站抓取數據?
如何從帶有無限滾動的網站抓取數據?
如何在網頁抓取中處理錯誤?
如何從使用 AJAX 的網站抓取數據?
如何加快 Node.js 中的網頁抓取速度?
如何從使用 CAPTCHA 的網站抓取數據?
首頁 web前端 js教程 node.js中的網絡刮擦

node.js中的網絡刮擦

Feb 24, 2025 am 08:53 AM

Web Scraping in Node.js

核心要點

  • Node.js 的網頁抓取涉及從遠程服務器下載源代碼並從中提取數據,可以使用 cheeriorequest 等模塊來實現。
  • cheerio 模塊實現了 jQuery 的一個子集,可以從 HTML 字符串構建 DOM 並進行解析,但它可能難以處理結構不良的 HTML。
  • 通過結合requestcheerio 可以構建完整的網頁抓取程序來提取網頁的特定元素,但是處理動態內容、避免被封禁以及處理需要登錄或使用CAPTCHA 的網站會更加複雜,可能需要額外的工具或策略。

網頁抓取程序是通過編程方式訪問網頁並從中提取數據的軟件。由於內容重複等問題,網頁抓取是一個有點爭議的話題。大多數網站所有者更傾向於通過公開可用的 API 訪問其數據。不幸的是,許多網站提供的 API 質量很差,甚至根本沒有 API。這迫使許多開發人員轉向網頁抓取。本文將教你如何在 Node.js 中實現你自己的網頁抓取程序。網頁抓取的第一步是從遠程服務器下載源代碼。在“在 Node.js 中發出 HTTP 請求”中,讀者學習瞭如何使用 request 模塊下載頁面。以下示例快速回顧了在 Node.js 中發出 GET 請求的方法。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});
登入後複製
登入後複製

網頁抓取的第二步,也是更困難的一步,是從下載的源代碼中提取數據。在客戶端,使用選擇器 API 或 jQuery 等庫可以輕鬆完成此任務。不幸的是,這些解決方案依賴於可以查詢 DOM 的假設。遺憾的是,Node.js 沒有提供 DOM。或者有嗎?

Cheerio 模塊

雖然 Node.js 沒有內置 DOM,但有一些模塊可以從 HTML 源代碼字符串構建 DOM。兩個流行的 DOM 模塊是 cheeriojsdom。本文重點介紹 cheerio,可以使用以下命令安裝:

npm install cheerio
登入後複製
登入後複製

cheerio 模塊實現了 jQuery 的一個子集,這意味著許多開發人員可以快速上手。事實上,cheerio 與 jQuery 非常相似,你很容易發現自己試圖使用 cheerio 中未實現的 jQuery 函數。以下示例展示瞭如何使用 cheerio 解析 HTML 字符串。第一行將 cheerio 導入程序。 html 變量保存要解析的 HTML 片段。在第 3 行,使用 cheerio 解析 HTML。結果賦值給 $ 變量。選擇美元符號是因為它傳統上用於 jQuery。第 4 行使用 CSS 樣式選擇器選擇 <code><ul> 元素。最後,使用 html() 方法打印列表的內部 HTML。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});
登入後複製
登入後複製

限制

cheerio 正在積極開發中,並且一直在改進。但是,它仍然有一些限制。 cheerio 最令人沮喪的方面是 HTML 解析器。 HTML 解析是一個難題,並且有很多網頁包含不良的 HTML。雖然 cheerio 不會在這些頁面上崩潰,但你可能會發現自己無法選擇元素。這使得難以確定錯誤在於你的選擇器還是頁面本身。

抓取 JSPro

以下示例結合 requestcheerio 來構建一個完整的網頁抓取程序。該示例抓取程序提取 JSPro 首頁上所有文章的標題和 URL。前兩行將所需的模塊導入示例。第 3 到第 5 行下載 JSPro 首頁的源代碼。然後將源代碼傳遞給 cheerio 進行解析。

npm install cheerio
登入後複製
登入後複製

如果你查看 JSPro 源代碼,你會注意到每個文章標題都是一個包含在類為 entry-title<a></a> 元素中的鏈接。第 7 行的選擇器選擇所有文章鏈接。然後使用 each() 函數遍歷所有文章。最後,文章標題和 URL 分別從鏈接的文本和 href 屬性中獲取。

結論

本文向你展示瞭如何在 Node.js 中創建一個簡單的網頁抓取程序。請注意,這不是抓取網頁的唯一方法。還有其他技術,例如使用無頭瀏覽器,它們功能更強大,但可能會影響簡單性和/或速度。請關注即將發表的關於 PhantomJS 無頭瀏覽器的文章。

Node.js 網頁抓取常見問題 (FAQ)

如何在 Node.js 網頁抓取中處理動態內容?

在 Node.js 中處理動態內容可能有點棘手,因為內容是異步加載的。您可以使用像 Puppeteer 這樣的庫,它是一個 Node.js 庫,提供一個高級 API 來通過 DevTools 協議控制 Chrome 或 Chromium。 Puppeteer 默認情況下以無頭模式運行,但可以配置為運行完整的(非無頭)Chrome 或 Chromium。這允許您通過模擬用戶交互來抓取動態內容。

如何避免在網頁抓取時被封禁?

如果網站檢測到異常流量,網頁抓取有時會導致您的 IP 被封禁。為避免這種情況,您可以使用一些技術,例如輪換您的 IP 地址、使用延遲,甚至使用自動處理這些問題的抓取 API。

如何從需要登錄的網站抓取數據?

要從需要登錄的網站抓取數據,您可以使用 Puppeteer。 Puppeteer 可以通過填寫登錄表單並提交來模擬登錄過程。登錄後,您可以導航到所需的頁面並抓取數據。

如何將抓取的數據保存到數據庫?

抓取數據後,您可以使用您選擇的數據庫的數據庫客戶端。例如,如果您使用的是 MongoDB,您可以使用 MongoDB Node.js 客戶端連接到您的數據庫並保存數據。

如何從帶有分頁的網站抓取數據?

要從帶有分頁的網站抓取數據,您可以使用循環來瀏覽頁面。在每次迭代中,您可以從當前頁面抓取數據,然後單擊“下一頁”按鈕導航到下一頁。

如何從帶有無限滾動的網站抓取數據?

要從帶有無限滾動的網站抓取數據,您可以使用 Puppeteer 模擬向下滾動操作。您可以使用循環不斷向下滾動,直到不再加載新數據。

如何在網頁抓取中處理錯誤?

錯誤處理在網頁抓取中至關重要。您可以使用 try-catch 塊來處理錯誤。在 catch 塊中,您可以記錄錯誤消息,這將幫助您調試問題。

如何從使用 AJAX 的網站抓取數據?

要從使用 AJAX 的網站抓取數據,您可以使用 Puppeteer。 Puppeteer 可以等待 AJAX 調用完成,然後抓取數據。

如何加快 Node.js 中的網頁抓取速度?

要加快網頁抓取速度,您可以使用並行處理等技術,在不同的選項卡中打開多個頁面並同時從它們抓取數據。但是,請注意不要用過多的請求來過載網站,因為這可能會導致您的 IP 被封禁。

如何從使用 CAPTCHA 的網站抓取數據?

從使用 CAPTCHA 的網站抓取數據可能具有挑戰性。您可以使用像 2Captcha 這樣的服務,它們提供一個 API 來解決 CAPTCHA。但是,請記住,在某些情況下,這可能是非法或不道德的。始終尊重網站的服務條款。

以上是node.js中的網絡刮擦的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1655
14
CakePHP 教程
1414
52
Laravel 教程
1307
25
PHP教程
1254
29
C# 教程
1228
24
神秘的JavaScript:它的作用以及為什麼重要 神秘的JavaScript:它的作用以及為什麼重要 Apr 09, 2025 am 12:07 AM

JavaScript是現代Web開發的基石,它的主要功能包括事件驅動編程、動態內容生成和異步編程。 1)事件驅動編程允許網頁根據用戶操作動態變化。 2)動態內容生成使得頁面內容可以根據條件調整。 3)異步編程確保用戶界面不被阻塞。 JavaScript廣泛應用於網頁交互、單頁面應用和服務器端開發,極大地提升了用戶體驗和跨平台開發的靈活性。

JavaScript的演變:當前的趨勢和未來前景 JavaScript的演變:當前的趨勢和未來前景 Apr 10, 2025 am 09:33 AM

JavaScript的最新趨勢包括TypeScript的崛起、現代框架和庫的流行以及WebAssembly的應用。未來前景涵蓋更強大的類型系統、服務器端JavaScript的發展、人工智能和機器學習的擴展以及物聯網和邊緣計算的潛力。

JavaScript引擎:比較實施 JavaScript引擎:比較實施 Apr 13, 2025 am 12:05 AM

不同JavaScript引擎在解析和執行JavaScript代碼時,效果會有所不同,因為每個引擎的實現原理和優化策略各有差異。 1.詞法分析:將源碼轉換為詞法單元。 2.語法分析:生成抽象語法樹。 3.優化和編譯:通過JIT編譯器生成機器碼。 4.執行:運行機器碼。 V8引擎通過即時編譯和隱藏類優化,SpiderMonkey使用類型推斷系統,導致在相同代碼上的性能表現不同。

JavaScript:探索網絡語言的多功能性 JavaScript:探索網絡語言的多功能性 Apr 11, 2025 am 12:01 AM

JavaScript是現代Web開發的核心語言,因其多樣性和靈活性而廣泛應用。 1)前端開發:通過DOM操作和現代框架(如React、Vue.js、Angular)構建動態網頁和單頁面應用。 2)服務器端開發:Node.js利用非阻塞I/O模型處理高並發和實時應用。 3)移動和桌面應用開發:通過ReactNative和Electron實現跨平台開發,提高開發效率。

Python vs. JavaScript:學習曲線和易用性 Python vs. JavaScript:學習曲線和易用性 Apr 16, 2025 am 12:12 AM

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

如何使用Next.js(前端集成)構建多租戶SaaS應用程序 如何使用Next.js(前端集成)構建多租戶SaaS應用程序 Apr 11, 2025 am 08:22 AM

本文展示了與許可證確保的後端的前端集成,並使用Next.js構建功能性Edtech SaaS應用程序。 前端獲取用戶權限以控制UI的可見性並確保API要求遵守角色庫

從C/C到JavaScript:所有工作方式 從C/C到JavaScript:所有工作方式 Apr 14, 2025 am 12:05 AM

從C/C 轉向JavaScript需要適應動態類型、垃圾回收和異步編程等特點。 1)C/C 是靜態類型語言,需手動管理內存,而JavaScript是動態類型,垃圾回收自動處理。 2)C/C 需編譯成機器碼,JavaScript則為解釋型語言。 3)JavaScript引入閉包、原型鍊和Promise等概念,增強了靈活性和異步編程能力。

如何安裝JavaScript? 如何安裝JavaScript? Apr 05, 2025 am 12:16 AM

JavaScript不需要安裝,因為它已內置於現代瀏覽器中。你只需文本編輯器和瀏覽器即可開始使用。 1)在瀏覽器環境中,通過標籤嵌入HTML文件中運行。 2)在Node.js環境中,下載並安裝Node.js後,通過命令行運行JavaScript文件。

See all articles