使用Langchain Text Splitters -Analytics Vidhya拆分數據的7種方法-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

使用Langchain Text Splitters -Analytics Vidhya拆分數據的7種方法

Lisa Kudrow

Apr 19, 2025 am 10:11 AM

Langchain文本拆分器：優化LLM輸入以提高效率和準確性

我們上一篇文章介紹了Langchain的文檔加載程序。但是，LLM具有上下文窗口大小的限制（以代幣測量）。超過此限制會截斷數據，損害準確性並增加成本。解決方案？僅將相關數據發送到LLM，需要數據分割。輸入Langchain的文本拆分器。

使用Langchain Text Splitters -Analytics Vidhya拆分數據的7種方法

關鍵概念：

文本拆分器的關鍵作用：理解為什麼有效的文本拆分對於優化LLM應用程序，平衡上下文窗口大小和成本至關重要。
多樣化的文本拆分技術：探索各種方法，包括角色計數，代幣計數，遞歸分裂以及針對HTML，代碼和JSON結構量身定制的技術。
Langchain文本分離器實施：學習實用應用，包括安裝，文本分割的代碼示例以及處理多種數據格式。
語義分裂以增強相關性：發現句子的嵌入和余弦相似性如何創造語義上連貫的塊，從而最大程度地提高相關性。

目錄：

什麼是文本拆分器？
數據拆分方法
基於角色計數的分裂
遞歸分裂
基於令牌計數的分裂
處理HTML
特定於代碼的分裂
JSON數據處理
語義塊
常見問題

什麼是文本拆分器？

文本拆分器將大文本分為較小的，可管理的塊，以改善LLM查詢相關性。它們直接在原始文本或蘭鏈文檔對像上工作。多種方法適合不同的內容類型和用例。

數據拆分方法

Langchain文本拆分器對於有效的大型文檔處理至關重要。它們可以提高性能，上下文理解，實現並行處理並促進更好的數據管理。讓我們檢查幾種方法：

先決條件：使用pip install langchain_text_splitters安裝軟件包

基於角色計數的分裂

此方法使用指定的分離器根據字符計數分配文本。

來自langchain_community.document_loader
來自langchain_text_splitter

＃加載數據（用PDF路徑替換）
loader = unscontralypdfloader（'how-to-formulate-successful-business-strategy.pdf'，mode ='single'）
data = loader.load（）

text_splitter = prinateTextSplitter（saparator =“ \ n”，chunk_size = 500，chunk_overlap = 0，is_separator_regex = false）
texts = text_splitter.split_documents（數據）
Len（文本）＃輸出：塊數量

登入後複製

此示例將文本分為500個字符的塊，使用newline字符作為分離器。

遞歸分裂

這是順序使用多個分離器，直到塊低於chunk_size 。對於句子級分裂有用。

來自langchain_text_splitter

recursive_splitter = recursivecharactertextsplitter（saparators = [“ \ n \ n”，“ \ n”，r“（？>> 293）

＃...（其餘代碼保持相似）

登入後複製

基於令牌計數的分裂

LLM使用令牌；通過令牌計數分裂更準確。此示例使用o200k_base編碼（檢查github鏈接中的型號/編碼映射）。

從langchain_text_splitters導入tokentextsplitter

text_splitter = tokentextsplitter（encoding_name ='o200k_base'，chunk_size = 50，chunk_overlap = 0）
texts = text_splitter.split_documents（數據）
Len（文本）＃輸出：塊數量

登入後複製

遞歸分裂也可以與令牌計數相結合。

對於純文本，通常優選使用字符或令牌計數進行遞歸分裂。

處理HTML

對於HTML等結構化數據，分裂應尊重結構。此示例基於HTML標頭拆分。

從langchain_text_splitters導入htmlheadertextsplitter

headers_to_split_on = [（“ h1”，“ header 1”），（“ h2”，“ header 2”），（“ h3”，“ header 3”）]
html_splitter = htmlheadertextsplitter（headers_to_split_on，return_each_element = true）
html_header_splits = html_splitter.split_text_from_url（'https://diataxis.fr/'）
len（html_header_splits）＃輸出：塊數

登入後複製

HTMLSectionSplitter允許根據其他部分進行分割。

特定於代碼的分裂

編程語言具有獨特的結構。此示例使用語法意識分配用於Python代碼。

來自langchain_text_splitter

＃...（Python代碼示例）...

python_splitter = recursivecharactertextsplitter.from_language（language = language.python，chunk_size = 100，chunk_overlap = 0）
python_docs = python_splitter.create_documents（[Python_code]）

登入後複製

JSON數據處理

嵌套的JSON對象可以在保留密鑰關係時分開。

來自langchain_text_splitters導入recursivejsonsplitter

＃...（JSON數據示例）...

splitter = recursivejsonsplitter（max_chunk_size = 200，min_chunk_size = 20）
塊= splitter.split_text（json_data，convert_lists = true）

登入後複製

語義塊

該方法使用句子嵌入和余弦與語義相關的句子的相似性。

來自langchain_experiment.text_splitter導入semanticchunker
來自langchain_openai.embeddings進口openaiembeddings＃需要OpenAi API鍵

＃...（使用openaiembeddings和semanticchunker的代碼）...

登入後複製

結論

Langchain提供了各種文本分裂方法，每種方法都適用於不同的數據類型。選擇正確的方法可以優化LLM輸入，提高準確性並降低成本。

常見問題

（問答部分基本相同，並進行較小的措辭調整以清晰度和流動。）

以上是使用Langchain Text Splitters -Analytics Vidhya拆分數據的7種方法的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn