使用 Readability.js 清理 HTML 內容以進行檢索增強生成
網頁抓取是為檢索增強生成 (RAG) 應用程式收集內容的常用方法。然而,解析網頁內容可能具有挑戰性。
Mozilla 的開源 Readability.js 函式庫提供了一個方便的解決方案,用於僅提取網頁的基本部分。 讓我們探討一下它將其整合到 RAG 應用程式的資料攝取管道中。
從網頁擷取非結構化資料
網頁是非結構化資料的豐富來源,非常適合 RAG 應用程式。 然而,網頁通常包含不相關的訊息,例如頁首、側邊欄和頁尾。雖然這些額外內容對於瀏覽很有用,但會分散頁面的主要主題。
為了獲得最佳的 RAG 數據,必須刪除不相關的內容。 雖然像 Cheerio 這樣的工具可以根據網站已知的結構解析 HTML,但這種方法對於抓取不同的網站佈局效率很低。需要一種強大的方法來僅提取相關內容。
利用閱讀器視圖功能
大多數瀏覽器都包含一個閱讀器視圖,該視圖會刪除除文章標題和內容之外的所有內容。下圖說明了應用於 DataStax 部落格文章的標準瀏覽模式和閱讀器模式之間的差異:
Mozilla 提供 Readability.js(Firefox 閱讀器模式背後的函式庫)作為獨立的開源模組。這使我們能夠將 Readability.js 整合到資料管道中,以刪除不相關的內容並改善抓取結果。
使用 Node.js 和 Readability.js 抓取資料
讓我們舉例說明如何從先前關於在 Node.js 中建立向量嵌入的部落格文章中抓取文章內容。 以下 JavaScript 程式碼擷取頁面的 HTML:
const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); console.log(html);
這包括所有 HTML,包括導覽、頁腳和網站上常見的其他元素。
或者,您可以使用 Cheerio 來選擇特定元素:
npm install cheerio
import * as cheerio from "cheerio"; const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); const $ = cheerio.load(html); console.log($("h1").text(), "\n"); console.log($("section#blog-content > div:first-child").text());
這會產生標題和文章文字。 然而,這種方法依賴於了解 HTML 結構,這並不總是可行。
更好的方法是安裝 Readability.js 和 jsdom:
npm install @mozilla/readability jsdom
Readability.js 在瀏覽器環境中運行,需要 jsdom 在 Node.js 中模擬它。 我們可以將載入的 HTML 轉換為文件並使用 Readability.js 解析內容:
import { Readability } from "@mozilla/readability"; import { JSDOM } from "jsdom"; const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"; const html = await fetch(url).then((res) => res.text()); const doc = new JSDOM(html, { url }); const reader = new Readability(doc.window.document); const article = reader.parse(); console.log(article);
article
物件包含各種解析元素:
這包括標題、作者、摘錄、出版時間以及 HTML (content
) 和純文字 (textContent
)。 textContent
已準備好進行分塊、嵌入和存儲,而 content
保留連結和圖像以供進一步處理。
isProbablyReaderable
函數有助於確定文件是否適合 Readability.js:
const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); console.log(html);
不合適的頁面應被標記以供審核。
將可讀性與 LangChain.js 整合
Readability.js 與 LangChain.js 無縫整合。以下範例使用 LangChain.js 載入頁面,使用 MozillaReadabilityTransformer
擷取內容,使用 RecursiveCharacterTextSplitter
分割文本,使用 OpenAI 建立嵌入,並將資料儲存在 Astra DB 中。
所需的依賴項:
npm install cheerio
您需要 Astra DB 憑證(ASTRA_DB_APPLICATION_TOKEN
、ASTRA_DB_API_ENDPOINT
)和 OpenAI API 金鑰 (OPENAI_API_KEY
) 作為環境變數。
導入必要的模組:
import * as cheerio from "cheerio"; const html = await fetch( "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js" ).then((res) => res.text()); const $ = cheerio.load(html); console.log($("h1").text(), "\n"); console.log($("section#blog-content > div:first-child").text());
初始化組件:
npm install @mozilla/readability jsdom
載入、轉換、分割、嵌入和儲存文件:
import { Readability } from "@mozilla/readability"; import { JSDOM } from "jsdom"; const url = "https://www.datastax.com/blog/how-to-create-vector-embeddings-in-node-js"; const html = await fetch(url).then((res) => res.text()); const doc = new JSDOM(html, { url }); const reader = new Readability(doc.window.document); const article = reader.parse(); console.log(article);
透過 Readability.js 提高網頁抓取準確性
Readability.js 是一個為 Firefox 閱讀器模式提供支援的強大函式庫,可以有效地從網頁中提取相關數據,從而提高 RAG 資料品質。 可以直接使用,也可以透過LangChain.js的MozillaReadabilityTransformer
.
這只是攝取管道的初始階段。 分塊、嵌入和 Astra DB 儲存是建立 RAG 應用程式的後續步驟。
您是否使用其他方法來清理 RAG 應用程式中的網頁內容? 分享你的技巧!
以上是使用 Readability.js 清理 HTML 內容以進行檢索增強生成的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

不同JavaScript引擎在解析和執行JavaScript代碼時,效果會有所不同,因為每個引擎的實現原理和優化策略各有差異。 1.詞法分析:將源碼轉換為詞法單元。 2.語法分析:生成抽象語法樹。 3.優化和編譯:通過JIT編譯器生成機器碼。 4.執行:運行機器碼。 V8引擎通過即時編譯和隱藏類優化,SpiderMonkey使用類型推斷系統,導致在相同代碼上的性能表現不同。

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

從C/C 轉向JavaScript需要適應動態類型、垃圾回收和異步編程等特點。 1)C/C 是靜態類型語言,需手動管理內存,而JavaScript是動態類型,垃圾回收自動處理。 2)C/C 需編譯成機器碼,JavaScript則為解釋型語言。 3)JavaScript引入閉包、原型鍊和Promise等概念,增強了靈活性和異步編程能力。

JavaScript在Web開發中的主要用途包括客戶端交互、表單驗證和異步通信。 1)通過DOM操作實現動態內容更新和用戶交互;2)在用戶提交數據前進行客戶端驗證,提高用戶體驗;3)通過AJAX技術實現與服務器的無刷新通信。

JavaScript在現實世界中的應用包括前端和後端開發。 1)通過構建TODO列表應用展示前端應用,涉及DOM操作和事件處理。 2)通過Node.js和Express構建RESTfulAPI展示後端應用。

理解JavaScript引擎內部工作原理對開發者重要,因為它能幫助編寫更高效的代碼並理解性能瓶頸和優化策略。 1)引擎的工作流程包括解析、編譯和執行三個階段;2)執行過程中,引擎會進行動態優化,如內聯緩存和隱藏類;3)最佳實踐包括避免全局變量、優化循環、使用const和let,以及避免過度使用閉包。

Python和JavaScript在社區、庫和資源方面的對比各有優劣。 1)Python社區友好,適合初學者,但前端開發資源不如JavaScript豐富。 2)Python在數據科學和機器學習庫方面強大,JavaScript則在前端開發庫和框架上更勝一籌。 3)兩者的學習資源都豐富,但Python適合從官方文檔開始,JavaScript則以MDNWebDocs為佳。選擇應基於項目需求和個人興趣。

Python和JavaScript在開發環境上的選擇都很重要。 1)Python的開發環境包括PyCharm、JupyterNotebook和Anaconda,適合數據科學和快速原型開發。 2)JavaScript的開發環境包括Node.js、VSCode和Webpack,適用於前端和後端開發。根據項目需求選擇合適的工具可以提高開發效率和項目成功率。
