如何使用免费的法学硕士模型和知识库创建您自己的 RAG
本文探讨了结合现代基于变压器的模型的简单而有效的问答系统的实现。该系统使用 T5(文本到文本传输转换器)进行答案生成,并使用句子转换器进行语义相似度匹配。
在上一篇文章中,我解释了如何使用免费的基础 LLM 模型创建带有 Web 界面的简单翻译 API。这次,让我们深入探讨使用基于免费 Transformer 的 LLM 模型和知识库构建检索增强生成 (RAG) 系统。
RAG(检索增强生成)是一种结合了两个关键组件的技术:
检索:首先,它搜索知识库(如文档、数据库等)以查找给定查询的相关信息。这通常涉及:
- 将文本转换为嵌入(表示含义的数值向量)
- 使用相似性度量(如余弦相似度)查找相似内容
- 选择最相关的信息
生成: 然后它使用语言模型(如我们代码中的 T5)通过以下方式生成响应:
将检索到的信息与原始问题相结合
根据上下文创建自然语言响应
代码中:
- SentenceTransformer 通过创建嵌入来处理检索部分
- T5 模型通过创建答案来处理生成部分
RAG 的好处:
- 更准确的回答,因为它们基于特定知识
- 与纯粹的法学硕士反应相比,幻觉减少
- 能够访问最新或特定领域的信息
- 比纯生成更可控、更透明
系统架构概述
该实现由一个 SimpleQASystem 类组成,该类协调两个主要组件:
- 使用句子转换器的语义搜索系统
- 使用 T5 的答案生成系统
您可以在这里下载最新版本的源代码:https://github.com/alexander-uspenskiy/rag_project
系统图
RAG 项目设置指南
本指南将帮助您在 macOS 和 Windows 上设置检索增强生成 (RAG) 项目。
先决条件
对于 macOS:
安装 Homebrew(如果尚未安装):
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
使用 Homebrew 安装 Python 3.8
酿造安装python@3.10
对于 Windows:
从 python.org 下载并安装 Python 3.8
安装时请务必勾选“Add Python to PATH”
项目设置
第1步:创建项目目录
macOS:
mkdir RAG_project
cd RAG_project
Windows:
mkdir RAG_project
cd RAG_project
第 2 步:设置虚拟环境
macOS:
python3 -m venv venv
源 venv/bin/activate
Windows:
python -m venv venv
venvScriptsactivate
**核心组件
- 初始化**
def __init__(self): self.model_name = 't5-small' self.tokenizer = T5Tokenizer.from_pretrained(self.model_name) self.model = T5ForConditionalGeneration.from_pretrained(self.model_name) self.encoder = SentenceTransformer('paraphrase-MiniLM-L6-v2')
系统使用两个主要模型进行初始化:
T5-small:用于生成答案的 T5 模型的较小版本
paraphrase-MiniLM-L6-v2:用于将文本编码为有意义的向量的句子转换器模型
2。数据集准备
def prepare_dataset(self, data: List[Dict[str, str]]): self.answers = [item['answer'] for item in data] self.answer_embeddings = [] for answer in self.answers: embedding = self.encoder.encode(answer, convert_to_tensor=True) self.answer_embeddings.append(embedding)
数据集准备阶段:
- 从输入数据中提取答案
- 使用句子转换器为每个答案创建嵌入
- 存储答案及其嵌入以便快速检索
系统如何运作
1。问题处理
当用户提交问题时,系统会执行以下步骤:
嵌入生成:使用与答案相同的句子转换器模型将问题转换为向量表示。
语义搜索:系统通过以下方式找到最相关的存储答案:
- 计算问题嵌入和所有答案嵌入之间的余弦相似度
- 选择相似度得分最高的答案 上下文形成:所选答案成为 T5 生成最终响应的上下文。
2。答案生成
def get_answer(self, question: str) -> str: # ... semantic search logic ... input_text = f"Given the context, what is the answer to the question: {question} Context: {context}" input_ids = self.tokenizer(input_text, max_length=512, truncation=True, padding='max_length', return_tensors='pt').input_ids outputs = self.model.generate(input_ids, max_length=50, num_beams=4, early_stopping=True, no_repeat_ngram_size=2
答案生成过程:
- 将问题和上下文组合成 T5 的提示
- 对输入文本进行标记,最大长度为 512 个标记
- 使用波束搜索和以下参数生成答案:
- max_length=50:限制答案长度
- num_beams=4:使用 4 个光束的光束搜索
- early_stopping=True:当所有光束到达结束标记时停止生成
- no_repeat_ngram_size=2:防止二元组重复
3。回答清洁
def __init__(self): self.model_name = 't5-small' self.tokenizer = T5Tokenizer.from_pretrained(self.model_name) self.model = T5ForConditionalGeneration.from_pretrained(self.model_name) self.encoder = SentenceTransformer('paraphrase-MiniLM-L6-v2')
- 删除重复的连续单词(不区分大小写)
- 答案的第一个字母大写
- 删除多余的空格
完整源代码
您可以在这里下载最新版本的源代码:https://github.com/alexander-uspenskiy/rag_project
def prepare_dataset(self, data: List[Dict[str, str]]): self.answers = [item['answer'] for item in data] self.answer_embeddings = [] for answer in self.answers: embedding = self.encoder.encode(answer, convert_to_tensor=True) self.answer_embeddings.append(embedding)
内存管理:
系统明确使用CPU来避免内存问题
需要时嵌入会转换为 CPU 张量
输入长度限制为 512 个标记
错误处理:
- 整个代码中全面的 try- except 块
- 有意义的调试错误消息
- 未初始化组件的验证检查
使用示例
def get_answer(self, question: str) -> str: # ... semantic search logic ... input_text = f"Given the context, what is the answer to the question: {question} Context: {context}" input_ids = self.tokenizer(input_text, max_length=512, truncation=True, padding='max_length', return_tensors='pt').input_ids outputs = self.model.generate(input_ids, max_length=50, num_beams=4, early_stopping=True, no_repeat_ngram_size=2
在终端中运行
局限性和潜在的改进
可扩展性:
当前实现将所有嵌入保留在内存中
可以使用矢量数据库来改进大规模应用
回答质量:
严重依赖所提供答案数据集的质量
受限于T5-small的上下文窗口
可以从答案验证或置信度评分中受益
表现:
- 对于大型应用程序,仅使用 CPU 可能会比较慢
- 可以通过批处理进行优化
- 可以对常见问题实现缓存
结论
该实现结合了语义搜索和基于转换器的文本生成的优势,为问答系统提供了坚实的基础。请随意使用模型参数(如 max_length、num_beams、early_stopping、no_repeat_ngram_size 等),找到更好的方法来获得更连贯和稳定的答案。虽然还有改进的空间,但当前的实现在复杂性和功能之间提供了良好的平衡,使其适合教育目的和中小型应用程序。
编码愉快!
以上是如何使用免费的法学硕士模型和知识库创建您自己的 RAG的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Python适合数据科学、Web开发和自动化任务,而C 适用于系统编程、游戏开发和嵌入式系统。 Python以简洁和强大的生态系统着称,C 则以高性能和底层控制能力闻名。

Python在游戏和GUI开发中表现出色。1)游戏开发使用Pygame,提供绘图、音频等功能,适合创建2D游戏。2)GUI开发可选择Tkinter或PyQt,Tkinter简单易用,PyQt功能丰富,适合专业开发。

2小时内可以学会Python的基本编程概念和技能。1.学习变量和数据类型,2.掌握控制流(条件语句和循环),3.理解函数的定义和使用,4.通过简单示例和代码片段快速上手Python编程。

两小时内可以学到Python的基础知识。1.学习变量和数据类型,2.掌握控制结构如if语句和循环,3.了解函数的定义和使用。这些将帮助你开始编写简单的Python程序。

Python更易学且易用,C 则更强大但复杂。1.Python语法简洁,适合初学者,动态类型和自动内存管理使其易用,但可能导致运行时错误。2.C 提供低级控制和高级特性,适合高性能应用,但学习门槛高,需手动管理内存和类型安全。

要在有限的时间内最大化学习Python的效率,可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Python在web开发、数据科学、机器学习、自动化和脚本编写等领域有广泛应用。1)在web开发中,Django和Flask框架简化了开发过程。2)数据科学和机器学习领域,NumPy、Pandas、Scikit-learn和TensorFlow库提供了强大支持。3)自动化和脚本编写方面,Python适用于自动化测试和系统管理等任务。

Python在自动化、脚本编写和任务管理中表现出色。1)自动化:通过标准库如os、shutil实现文件备份。2)脚本编写:使用psutil库监控系统资源。3)任务管理:利用schedule库调度任务。Python的易用性和丰富库支持使其在这些领域中成为首选工具。
