使用Langchain Text Splitters -Analytics Vidhya拆分数据的7种方法-人工智能-PHP中文网

首页

科技周边

人工智能

使用Langchain Text Splitters -Analytics Vidhya拆分数据的7种方法

Lisa Kudrow

Apr 19, 2025 am 10:11 AM

Langchain文本拆分器：优化LLM输入以提高效率和准确性

我们上一篇文章介绍了Langchain的文档加载程序。但是，LLM具有上下文窗口大小的限制（以代币测量）。超过此限制会截断数据，损害准确性并增加成本。解决方案？仅将相关数据发送到LLM，需要数据分割。输入Langchain的文本拆分器。

使用Langchain Text Splitters -Analytics Vidhya拆分数据的7种方法

关键概念：

文本拆分器的关键作用：理解为什么有效的文本拆分对于优化LLM应用程序，平衡上下文窗口大小和成本至关重要。
多样化的文本拆分技术：探索各种方法，包括角色计数，代币计数，递归分裂以及针对HTML，代码和JSON结构量身定制的技术。
Langchain文本分离器实施：学习实用应用，包括安装，文本分割的代码示例以及处理多种数据格式。
语义分裂以增强相关性：发现句子的嵌入和余弦相似性如何创造语义上连贯的块，从而最大程度地提高相关性。

目录：

什么是文本拆分器？
数据拆分方法
基于角色计数的分裂
递归分裂
基于令牌计数的分裂
处理HTML
特定于代码的分裂
JSON数据处理
语义块
常见问题

什么是文本拆分器？

文本拆分器将大文本分为较小的，可管理的块，以改善LLM查询相关性。它们直接在原始文本或兰链文档对象上工作。多种方法适合不同的内容类型和用例。

数据拆分方法

Langchain文本拆分器对于有效的大型文档处理至关重要。它们可以提高性能，上下文理解，实现并行处理并促进更好的数据管理。让我们检查几种方法：

先决条件：使用pip install langchain_text_splitters安装软件包

基于角色计数的分裂

此方法使用指定的分离器根据字符计数分配文本。

来自langchain_community.document_loader
来自langchain_text_splitter

＃加载数据（用PDF路径替换）
loader = unscontralypdfloader（'how-to-formulate-successful-business-strategy.pdf'，mode ='single'）
data = loader.load（）

text_splitter = prinateTextSplitter（saparator =“ \ n”，chunk_size = 500，chunk_overlap = 0，is_separator_regex = false）
texts = text_splitter.split_documents（数据）
Len（文本）＃输出：块数量

登录后复制

此示例将文本分为500个字符的块，使用newline字符作为分离器。

递归分裂

这是顺序使用多个分离器，直到块低于chunk_size 。对于句子级分裂有用。

来自langchain_text_splitter

recursive_splitter = recursivecharactertextsplitter（saparators = [“ \ n \ n”，“ \ n”，r“（？>> 293）

＃...（其余代码保持相似）

登录后复制

基于令牌计数的分裂

LLM使用令牌；通过令牌计数分裂更准确。此示例使用o200k_base编码（检查github链接中的型号/编码映射）。

从langchain_text_splitters导入tokentextsplitter

text_splitter = tokentextsplitter（encoding_name ='o200k_base'，chunk_size = 50，chunk_overlap = 0）
texts = text_splitter.split_documents（数据）
Len（文本）＃输出：块数量

登录后复制

递归分裂也可以与令牌计数相结合。

对于纯文本，通常优选使用字符或令牌计数进行递归分裂。

处理HTML

对于HTML等结构化数据，分裂应尊重结构。此示例基于HTML标头拆分。

从langchain_text_splitters导入htmlheadertextsplitter

headers_to_split_on = [（“ h1”，“ header 1”），（“ h2”，“ header 2”），（“ h3”，“ header 3”）]
html_splitter = htmlheadertextsplitter（headers_to_split_on，return_each_element = true）
html_header_splits = html_splitter.split_text_from_url（'https://diataxis.fr/'）
len（html_header_splits）＃输出：块数

登录后复制

HTMLSectionSplitter允许根据其他部分进行分割。

特定于代码的分裂

编程语言具有独特的结构。此示例使用语法意识分配用于Python代码。

来自langchain_text_splitter

＃...（Python代码示例）...

python_splitter = recursivecharactertextsplitter.from_language（language = language.python，chunk_size = 100，chunk_overlap = 0）
python_docs = python_splitter.create_documents（[Python_code]）

登录后复制

JSON数据处理

嵌套的JSON对象可以在保留密钥关系时分开。

来自langchain_text_splitters导入recursivejsonsplitter

＃...（JSON数据示例）...

splitter = recursivejsonsplitter（max_chunk_size = 200，min_chunk_size = 20）
块= splitter.split_text（json_data，convert_lists = true）

登录后复制

语义块

该方法使用句子嵌入和余弦与语义相关的句子的相似性。

来自langchain_experiment.text_splitter导入semanticchunker
来自langchain_openai.embeddings进口openaiembeddings＃需要OpenAi API键

＃...（使用openaiembeddings和semanticchunker的代码）...

登录后复制

结论

Langchain提供了各种文本分裂方法，每种方法都适用于不同的数据类型。选择正确的方法可以优化LLM输入，提高准确性并降低成本。

常见问题

（问答部分基本相同，并进行较小的措辞调整以清晰度和流动。）

以上是使用Langchain Text Splitters -Analytics Vidhya拆分数据的7种方法的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn