使用 Readability.js 清理 HTML 內容以進行檢索增強生成-js教程-PHP中文網

從網頁擷取非結構化資料

利用閱讀器視圖功能

使用 Node.js 和 Readability.js 抓取資料

將可讀性與 LangChain.js 整合

透過 Readability.js 提高網頁抓取準確性

首頁

web前端

js教程

使用 Readability.js 清理 HTML 內容以進行檢索增強生成

Barbara Streisand

Jan 22, 2025 am 10:33 AM

網頁抓取是為檢索增強生成 (RAG) 應用程式收集內容的常用方法。然而，解析網頁內容可能具有挑戰性。

Mozilla 的開源 Readability.js 函式庫提供了一個方便的解決方案，用於僅提取網頁的基本部分。讓我們探討一下它將其整合到 RAG 應用程式的資料攝取管道中。

從網頁擷取非結構化資料

網頁是非結構化資料的豐富來源，非常適合 RAG 應用程式。然而，網頁通常包含不相關的訊息，例如頁首、側邊欄和頁尾。雖然這些額外內容對於瀏覽很有用，但會分散頁面的主要主題。

為了獲得最佳的 RAG 數據，必須刪除不相關的內容。雖然像 Cheerio 這樣的工具可以根據網站已知的結構解析 HTML，但這種方法對於抓取不同的網站佈局效率很低。需要一種強大的方法來僅提取相關內容。

利用閱讀器視圖功能

大多數瀏覽器都包含一個閱讀器視圖，該視圖會刪除除文章標題和內容之外的所有內容。下圖說明了應用於 DataStax 部落格文章的標準瀏覽模式和閱讀器模式之間的差異：

Clean up HTML Content for Retrieval-Augmented Generation with Readability.js

Mozilla 提供 Readability.js（Firefox 閱讀器模式背後的函式庫）作為獨立的開源模組。這使我們能夠將 Readability.js 整合到資料管道中，以刪除不相關的內容並改善抓取結果。

使用 Node.js 和 Readability.js 抓取資料

讓我們舉例說明如何從先前關於在 Node.js 中建立向量嵌入的部落格文章中抓取文章內容。以下 JavaScript 程式碼擷取頁面的 HTML：

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());
console.log(html);

登入後複製

這包括所有 HTML，包括導覽、頁腳和網站上常見的其他元素。

或者，您可以使用 Cheerio 來選擇特定元素：

npm install cheerio

登入後複製

import * as cheerio from "cheerio";

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());

const $ = cheerio.load(html);

console.log($("h1").text(), "\n");
console.log($("section#blog-content > div:first-child").text());

登入後複製

這會產生標題和文章文字。然而，這種方法依賴於了解 HTML 結構，這並不總是可行。

更好的方法是安裝 Readability.js 和 jsdom：

npm install @mozilla/readability jsdom

登入後複製

Readability.js 在瀏覽器環境中運行，需要 jsdom 在 Node.js 中模擬它。我們可以將載入的 HTML 轉換為文件並使用 Readability.js 解析內容：

import { Readability } from "@mozilla/readability";
import { JSDOM } from "jsdom";

const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js";
const html = await fetch(url).then((res) => res.text());

const doc = new JSDOM(html, { url });
const reader = new Readability(doc.window.document);
const article = reader.parse();

console.log(article);

登入後複製

article 物件包含各種解析元素：

Clean up HTML Content for Retrieval-Augmented Generation with Readability.js

這包括標題、作者、摘錄、出版時間以及 HTML (content) 和純文字 (textContent)。 textContent 已準備好進行分塊、嵌入和存儲，而 content 保留連結和圖像以供進一步處理。

isProbablyReaderable 函數有助於確定文件是否適合 Readability.js：

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());
console.log(html);

登入後複製

不合適的頁面應被標記以供審核。

將可讀性與 LangChain.js 整合

Readability.js 與 LangChain.js 無縫整合。以下範例使用 LangChain.js 載入頁面，使用 MozillaReadabilityTransformer 擷取內容，使用 RecursiveCharacterTextSplitter 分割文本，使用 OpenAI 建立嵌入，並將資料儲存在 Astra DB 中。

所需的依賴項：

npm install cheerio

登入後複製

您需要 Astra DB 憑證（ASTRA_DB_APPLICATION_TOKEN、ASTRA_DB_API_ENDPOINT）和 OpenAI API 金鑰 (OPENAI_API_KEY) 作為環境變數。

導入必要的模組：

import * as cheerio from "cheerio";

const html = await fetch(
  "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"
).then((res) => res.text());

const $ = cheerio.load(html);

console.log($("h1").text(), "\n");
console.log($("section#blog-content > div:first-child").text());

登入後複製

初始化組件：

npm install @mozilla/readability jsdom

登入後複製

載入、轉換、分割、嵌入和儲存文件：

import { Readability } from "@mozilla/readability";
import { JSDOM } from "jsdom";

const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js";
const html = await fetch(url).then((res) => res.text());

const doc = new JSDOM(html, { url });
const reader = new Readability(doc.window.document);
const article = reader.parse();

console.log(article);

登入後複製

透過 Readability.js 提高網頁抓取準確性

Readability.js 是一個為 Firefox 閱讀器模式提供支援的強大函式庫，可以有效地從網頁中提取相關數據，從而提高 RAG 資料品質。可以直接使用，也可以透過LangChain.js的MozillaReadabilityTransformer.

使用

這只是攝取管道的初始階段。分塊、嵌入和 Astra DB 儲存是建立 RAG 應用程式的後續步驟。

您是否使用其他方法來清理 RAG 應用程式中的網頁內容？分享你的技巧！

以上是使用 Readability.js 清理 HTML 內容以進行檢索增強生成的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1667

CakePHP 教程

1426

Laravel 教程

1328

PHP教程

1273

C# 教程

1255

Related knowledge

JavaScript引擎：比較實施 Apr 13, 2025 am 12:05 AM

不同JavaScript引擎在解析和執行JavaScript代碼時，效果會有所不同，因為每個引擎的實現原理和優化策略各有差異。 1.詞法分析：將源碼轉換為詞法單元。 2.語法分析：生成抽象語法樹。 3.優化和編譯：通過JIT編譯器生成機器碼。 4.執行：運行機器碼。 V8引擎通過即時編譯和隱藏類優化，SpiderMonkey使用類型推斷系統，導致在相同代碼上的性能表現不同。

Python vs. JavaScript：學習曲線和易用性 Apr 16, 2025 am 12:12 AM

Python更適合初學者，學習曲線平緩，語法簡潔；JavaScript適合前端開發，學習曲線較陡，語法靈活。 1.Python語法直觀，適用於數據科學和後端開發。 2.JavaScript靈活，廣泛用於前端和服務器端編程。

從C/C到JavaScript：所有工作方式 Apr 14, 2025 am 12:05 AM

從C/C 轉向JavaScript需要適應動態類型、垃圾回收和異步編程等特點。 1）C/C 是靜態類型語言，需手動管理內存，而JavaScript是動態類型，垃圾回收自動處理。 2）C/C 需編譯成機器碼，JavaScript則為解釋型語言。 3）JavaScript引入閉包、原型鍊和Promise等概念，增強了靈活性和異步編程能力。

JavaScript和Web：核心功能和用例 Apr 18, 2025 am 12:19 AM

JavaScript在Web開發中的主要用途包括客戶端交互、表單驗證和異步通信。 1)通過DOM操作實現動態內容更新和用戶交互；2)在用戶提交數據前進行客戶端驗證，提高用戶體驗；3)通過AJAX技術實現與服務器的無刷新通信。

JavaScript在行動中：現實世界中的示例和項目 Apr 19, 2025 am 12:13 AM

JavaScript在現實世界中的應用包括前端和後端開發。 1)通過構建TODO列表應用展示前端應用，涉及DOM操作和事件處理。 2)通過Node.js和Express構建RESTfulAPI展示後端應用。

了解JavaScript引擎：實施詳細信息 Apr 17, 2025 am 12:05 AM

理解JavaScript引擎內部工作原理對開發者重要，因為它能幫助編寫更高效的代碼並理解性能瓶頸和優化策略。 1)引擎的工作流程包括解析、編譯和執行三個階段；2)執行過程中，引擎會進行動態優化，如內聯緩存和隱藏類；3)最佳實踐包括避免全局變量、優化循環、使用const和let，以及避免過度使用閉包。

Python vs. JavaScript：社區，圖書館和資源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社區、庫和資源方面的對比各有優劣。 1)Python社區友好，適合初學者，但前端開發資源不如JavaScript豐富。 2)Python在數據科學和機器學習庫方面強大，JavaScript則在前端開發庫和框架上更勝一籌。 3)兩者的學習資源都豐富，但Python適合從官方文檔開始，JavaScript則以MDNWebDocs為佳。選擇應基於項目需求和個人興趣。

Python vs. JavaScript：開發環境和工具 Apr 26, 2025 am 12:09 AM

Python和JavaScript在開發環境上的選擇都很重要。 1)Python的開發環境包括PyCharm、JupyterNotebook和Anaconda，適合數據科學和快速原型開發。 2)JavaScript的開發環境包括Node.js、VSCode和Webpack，適用於前端和後端開發。根據項目需求選擇合適的工具可以提高開發效率和項目成功率。

See all articles

使用 Readability.js 清理 HTML 內容以進行檢索增強生成

從網頁擷取非結構化資料

利用閱讀器視圖功能

使用 Node.js 和 Readability.js 抓取資料

將可讀性與 LangChain.js 整合

透過 Readability.js 提高網頁抓取準確性

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題