如何使用DeepSeek R1构建抹布系统？-人工智能-PHP中文网

知道DeepSeek R1有多挑战OpenAi O1型号：DeepSeek R1 vs Openai O1：哪一个更快，更便宜，更聪明？

>在您的终端中运行以下命令：

。这样可以防止在纯文本中暴露凭据。

存储为环境变量。这允许代码的其他部分访问OpenAI Services

。

，而不是将整个文档作为一个单元处理。

这些嵌入被存储在Chromadb

11。创建一个基于抹布的链

>使用DeepSeek R1

打开AI嵌入模型

> DeepSeek R1- Openai的O1最大竞争对手在这里！

首页

科技周边

人工智能

如何使用DeepSeek R1构建抹布系统？

William Shakespeare

Mar 07, 2025 am 09:39 AM

>我已经阅读了很多有关RAG和AI代理商的信息，但是随着DeepSeek V3和DeepSeek R1等新模型的发布，似乎建立有效的抹布系统的可能性已大大提高，提供了更好的检索准确性，增强的推理能力，以及对现实世界应用程序的更可扩展的架构。更复杂的检索机制，增强的微调选项和多模式功能的整合正在改变AI代理与数据相互作用的方式。它提出了有关传统抹布方法是否仍然是前进的最佳方法，或者较新的体系结构是否可以提供更有效且上下文意识到的解决方案的问题。

检索效果生成（RAG）系统通过结合基于检索的基于检索和生成的方法来产生更准确和上下文感知的响应，从而彻底改变了AI模型与数据相互作用的方式。随着> DeepSeek R1的出现，这是一种以其效率和成本效益而闻名的开源模型，建立有效的抹布系统变得更加易于访问和实用。在本文中，我们将使用DeepSeek R1构建一个抹布系统。

>目录的表

>使用DeepSeek R1用于RAG System
>使用DeepSeek R1

什么是deepseek r1？

deepSeek r1是一种开源的AI模型，其目的是提供高质量的推理和检索功能，以诸如Openai产品（例如OpenAI的产品）成本的一小部分。它具有MIT许可证，使其在商业上可行，适合广泛的应用程序。另外，这个强大的模型可让您看到婴儿床，但是OpenAI O1和O1-Mini不会显示任何理由令牌。

知道DeepSeek R1有多挑战OpenAi O1型号：DeepSeek R1 vs Openai O1：哪一个更快，更便宜，更聪明？

>将DeepSeek R1用于抹布系统的好处 >使用DeepSeek-R1构建检索功能的一代（RAG）系统提供了几个显着优势：

1。先进的推理能力：DeepSeek-R1通过在得出结论之前逐步分析和处理信息来模拟类似人类的推理。这种方法增强了系统处理复杂查询的能力，尤其是在需要逻辑推理，数学推理和编码任务的领域。

2。开源可访问性：根据MIT许可证发布，DeepSeek-R1是完全开源的，使开发人员无限制地访问其模型。这种开放性促进了自定义，微调和集成到各种应用程序中，而没有通常与专有模型相关的限制。

3。竞争性能：基准测试表明，DeepSeek-R1在涉及推理，数学和编码的任务中，诸如OpenAI的O1之类的领先模型（例如OpenAI的O1）上的领先模型。这种级别的性能确保了用DeepSeek-R1构建的抹布系统可以在各种和具有挑战性的查询中提供高质量，准确的响应。

4。思维过程中的透明度：>采用了“经过思考”方法，使其推理步骤在推理过程中可见。这种透明度有助于调试和完善系统，同时通过提供对决策过程的清晰见解来建立用户信任。 5。成本效益

：DeepSeek-R1的开源性质消除了许可费，其有效的体系结构降低了计算资源要求。这些因素为希望实施复杂的抹布系统而不会产生巨大费用的组织有助于更具成本效益的解决方案。

将DeepSeek-R1整合到抹布系统中，提供了高级推理能力，透明度，性能和成本效率的有效组合，使其成为旨在增强其AI功能的开发人员和组织的令人信服的选择。 >使用DeepSeek R1 构建抹布系统的步骤

脚本是一个检索型的一代（抹布）管道：

>

>通过将其分成页面并提取文本来加载和处理PDF文档

。

。当询问查询时，使用相似性搜索检索相关内容
基于检索到的文本生成响应。 >安装先决条件
>>下载ollama：
>单击此处下载> 对于Linux用户：

>在您的终端中运行以下命令：

之后，使用：> 这将需要一点时间才能下载：>
执行此操作后，打开jupyter笔记本，然后从编码部分开始：> 1。安装依赖项

langchain→使用大语言模型（LLM）构建应用程序的框架。

> langchain-openai→提供与OpenAI服务的集成。

>兰链 - 社区→增加了对各种文档加载程序和实用程序的支持。

langchain-chroma→启用与矢量数据库Chromadb的集成。

2。输入OpenAI API键

>要访问OpenAI的嵌入模型，该脚本会提示用户使用getPass（）安全地输入其API键

。这样可以防止在纯文本中暴露凭据。

3。设置环境变量脚本

将API键

存储为环境变量。这允许代码的其他部分访问OpenAI Services

，而无需硬编码凭据

，可以提高安全性。 4。初始化OpenAI嵌入 脚本初始化了一个名为“ text-embedding-3-small”的OpenAI嵌入模型。该模型将文本转换为向量嵌入

，这是文本含义的高维数字表示。这些嵌入后来用于比较和检索类似的内容

。

5。加载并拆分PDF文档 > pdf文件（Agenicai.pdf）已加载并分成页面>。提取每个页面文本，允许

较小，更易于管理的文本块

，而不是将整个文档作为一个单元处理。

6。创建并存储矢量数据库 从PDF中提取的文本转换为vector嵌入

。

这些嵌入被存储在Chromadb

中，一个高性能

。 数据库使用余弦相似性
7。使用相似性阈值检索相似的文本使用Chromadb创建a retiever
>根据给定查询搜索最相似的

基于0.3的相似性阈值过滤结果，这意味着文档必须至少具有30％的相似性才能符合相关性。

>

8。查询类似文档使用了两个测试查询：

“印度的旧首都是什么？” >
，这表明存储的文档不包含相关信息。

“什么是代理AI？”

成功检索相关的文本

- 9。建造一个抹布（检索仪）链
rag Pipeline
>
- >文本检索发生。>
>是一种针对基于检索的任务的功能强大的LLM。
11。创建一个基于抹布的链

langchain's检索模块用于：
>
从矢量数据库中

获取相关内容 使用提示模板
>格式化结构化响应
- 12。测试抹布链
- 脚本运行一个测试查询：“告诉领导者对代理AI的看法”
- llm严格使用检索到的上下文生成基于事实的响应。
>从数据库中检索相关信息。
>使用DeepSeek R1
构建抹布系统的代码
这是代码：

>安装OpenAI和Langchain依赖项
输入打开AI API键

>设置环境变量

打开AI嵌入模型

创建一个向量db并持续在磁盘上
```
curl -fsSL https://ollama.com/install.sh | sh
```
登录后复制
与阈值检索相似性
```
ollama pull deepseek-r1:1.5b
```
登录后复制
```
ollama pull deepseek-r1:1.5b

pulling manifest
pulling aabd4debf0c8... 100% ▕████████████████▏ 1.1 GB                         
pulling 369ca498f347... 100% ▕████████████████▏  387 B                         
pulling 6e4c38e1172f... 100% ▕████████████████▏ 1.1 KB                         
pulling f4d24e9138dd... 100% ▕████████████████▏  148 B                         
pulling a85fe2a2e58e... 100% ▕████████████████▏  487 B                         
verifying sha256 digest 
writing manifest 
success 
```
登录后复制
构建抹布链
```
!pip install langchain==0.3.11
!pip install langchain-openai==0.2.12
!pip install langchain-community==0.3.11
!pip install langchain-chroma==0.1.4
```
登录后复制
>加载连接到LLM
```
from getpass import getpass
OPENAI_KEY = getpass('Enter Open AI API Key: ')
```
登录后复制
langchain语法用于抹布链
```
import os
os.environ['OPENAI_API_KEY'] = OPENAI_KEY
```
登录后复制
```
from langchain_openai import OpenAIEmbeddings
openai_embed_model = OpenAIEmbeddings(model='text-embedding-3-small')
```
登录后复制
```
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader('AgenticAI.pdf')
pages = loader.load_and_split()
texts = [doc.page_content for doc in pages]

from langchain_chroma import Chroma
chroma_db = Chroma.from_texts(
texts=texts,
collection_name='db_docs',
collection_metadata={"hnsw:space": "cosine"}, # Set distance function to cosine
embedding=openai_embed_model
)
```
登录后复制
>查看我们有关DeepSeek工作和与类似模型进行比较的详细文章：

> DeepSeek R1- Openai的O1最大竞争对手在这里！
>
```
similarity_threshold_retriever = chroma_db.as_retriever(search_type="similarity_score_threshold",search_kwargs={"k": 3,"score_threshold": 0.3})

query = "what is the old capital of India?"
top3_docs = similarity_threshold_retriever.invoke(query)
top3_docs
```
登录后复制
>使用DeepSeek-V3
构建AI应用程序
> deepSeek-v3 vs gpt-4o vs llama 3.3 70b
```
[]
```
登录后复制
deepseek v3 vs gpt-4o：哪个更好？
deepseek r1 vs openai o1：哪个更好？
```
query = "What is Agentic AI?"
top3_docs = similarity_threshold_retriever.invoke(query)
top3_docs
```
登录后复制
>
如何访问DeepSeek Janus Pro 7b？

结论
- > DeepSeek R1