如何使用DeepSeek R1構建抹布系統？-人工智慧-PHP中文網

知道DeepSeek R1有多挑戰OpenAi O1型號：DeepSeek R1 vs Openai O1：哪一個更快，更便宜，更聰明？

>在您的終端中運行以下命令：

。這樣可以防止在純文本中暴露憑據。

存儲為環境變量。這允許代碼的其他部分訪問OpenAI Services

。

，而不是將整個文檔作為一個單元處理。

這些嵌入被存儲在Chromadb

11。創建一個基於抹布的鏈

>使用DeepSeek R1

打開AI嵌入模型

> DeepSeek R1- Openai的O1最大競爭對手在這裡！

首頁

科技週邊

人工智慧

如何使用DeepSeek R1構建抹布系統？

William Shakespeare

Mar 07, 2025 am 09:39 AM

>我已經閱讀了很多有關RAG和AI代理商的信息，但是隨著DeepSeek V3和DeepSeek R1等新模型的發布，似乎建立有效的抹布系統的可能性已大大提高，提供了更好的檢索準確性，增強的推理能力，以及對現實世界應用程序的更可擴展的架構。更複雜的檢索機制，增強的微調選項和多模式功能的整合正在改變AI代理與數據相互作用的方式。它提出了有關傳統抹布方法是否仍然是前進的最佳方法，或者較新的體系結構是否可以提供更有效且上下文意識到的解決方案的問題。

檢索效果生成（RAG）系統通過結合基於檢索的基於檢索和生成的方法來產生更準確和上下文感知的響應，從而徹底改變了AI模型與數據相互作用的方式。隨著> DeepSeek R1的出現，這是一種以其效率和成本效益而聞名的開源模型，建立有效的抹布系統變得更加易於訪問和實用。在本文中，我們將使用DeepSeek R1構建一個抹布系統。

>目錄的表

>使用DeepSeek R1用於RAG System
>使用DeepSeek R1

什麼是deepseek r1？

deepSeek r1是一種開源的AI模型，其目的是提供高質量的推理和檢索功能，以諸如Openai產品（例如OpenAI的產品）成本的一小部分。它具有MIT許可證，使其在商業上可行，適合廣泛的應用程序。另外，這個強大的模型可讓您看到嬰兒床，但是OpenAI O1和O1-Mini不會顯示任何理由令牌。

知道DeepSeek R1有多挑戰OpenAi O1型號：DeepSeek R1 vs Openai O1：哪一個更快，更便宜，更聰明？

>將DeepSeek R1用於抹布系統的好處 >使用DeepSeek-R1構建檢索功能的一代（RAG）系統提供了幾個顯著優勢：

1。先進的推理能力：DeepSeek-R1通過在得出結論之前逐步分析和處理信息來模擬類似人類的推理。這種方法增強了系統處理複雜查詢的能力，尤其是在需要邏輯推理，數學推理和編碼任務的領域。

2。開源可訪問性：根據MIT許可證發布，DeepSeek-R1是完全開源的，使開發人員無限制地訪問其模型。這種開放性促進了自定義，微調和集成到各種應用程序中，而沒有通常與專有模型相關的限制。

3。競爭性能：基準測試表明，DeepSeek-R1在涉及推理，數學和編碼的任務中，諸如OpenAI的O1之類的領先模型（例如OpenAI的O1）上的領先模型。這種級別的性能確保了用DeepSeek-R1構建的抹布系統可以在各種和具有挑戰性的查詢中提供高質量，準確的響應。

4。思維過程中的透明度：>採用了“經過思考”方法，使其推理步驟在推理過程中可見。這種透明度有助於調試和完善系統，同時通過提供對決策過程的清晰見解來建立用戶信任。 5。成本效益

：DeepSeek-R1的開源性質消除了許可費，其有效的體系結構降低了計算資源要求。這些因素為希望實施複雜的抹布系統而不會產生巨大費用的組織有助於更具成本效益的解決方案。

將DeepSeek-R1整合到抹布系統中，提供了高級推理能力，透明度，性能和成本效率的有效組合，使其成為旨在增強其AI功能的開發人員和組織的令人信服的選擇。 >使用DeepSeek R1 構建抹布系統的步驟

腳本是一個檢索型的一代（抹布）管道：

>

>通過將其分成頁面並提取文本來加載和處理PDF文檔

。

。當詢問查詢時，使用相似性搜索檢索相關內容
基於檢索到的文本生成響應。 >安裝先決條件
>>下載ollama：
>單擊此處下載> 對於Linux用戶：

>在您的終端中運行以下命令：

之後，使用：> 這將需要一點時間才能下載：>
執行此操作後，打開jupyter筆記本，然後從編碼部分開始：> 1。安裝依賴項

langchain→使用大語言模型（LLM）構建應用程序的框架。

> langchain-openai→提供與OpenAI服務的集成。

>蘭鏈 - 社區→增加了對各種文檔加載程序和實用程序的支持。

langchain-chroma→啟用與矢量數據庫Chromadb的集成。

2。輸入OpenAI API鍵

>要訪問OpenAI的嵌入模型，該腳本會提示用戶使用getPass（）安全地輸入其API鍵

。這樣可以防止在純文本中暴露憑據。

3。設置環境變量腳本

將API鍵

存儲為環境變量。這允許代碼的其他部分訪問OpenAI Services

，而無需硬編碼憑據

，可以提高安全性。 4。初始化OpenAI嵌入 腳本初始化了一個名為“ text-embedding-3-small”的OpenAI嵌入模型。該模型將文本轉換為向量嵌入

，這是文本含義的高維數字表示。這些嵌入後來用於比較和檢索類似的內容

。

5。加載並拆分PDF文檔 > pdf文件（Agenicai.pdf）已加載並分成頁面>。提取每個頁面文本，允許

較小，更易於管理的文本塊

，而不是將整個文檔作為一個單元處理。

6。創建並存儲矢量數據庫 從PDF中提取的文本轉換為vector嵌入

。

這些嵌入被存儲在Chromadb

中，一個高性能

。 數據庫使用餘弦相似性
7。使用相似性閾值檢索相似的文本使用Chromadb創建a retiever
>根據給定查詢搜索最相似的

基於0.3的相似性閾值過濾結果，這意味著文檔必須至少具有30％的相似性才能符合相關性。

>

8。查詢類似文檔使用了兩個測試查詢：

“印度的舊首都是什麼？” >
，這表明存儲的文檔不包含相關信息。

“什麼是代理AI？”

成功檢索相關的文本

- 9。建造一個抹布（檢索儀）鏈
rag Pipeline
>
- >文本檢索發生。 >
>是一種針對基於檢索的任務的功能強大的LLM。
11。創建一個基於抹布的鏈

langchain's檢索模塊用於：
>
從矢量數據庫中

獲取相關內容 使用提示模板
>格式化結構化響應
- 12。測試抹布鏈
- 腳本運行一個測試查詢：“告訴領導者對代理AI的看法”
- llm嚴格使用檢索到的上下文生成基於事實的響應。
>從數據庫中檢索相關信息。
>使用DeepSeek R1
構建抹布系統的代碼
這是代碼：

>安裝OpenAI和Langchain依賴項
輸入打開AI API鍵

>設置環境變量

打開AI嵌入模型

創建一個向量db並持續在磁盤上
```
curl -fsSL https://ollama.com/install.sh | sh
```
登入後複製
與閾值檢索相似性
```
ollama pull deepseek-r1:1.5b
```
登入後複製
```
ollama pull deepseek-r1:1.5b

pulling manifest
pulling aabd4debf0c8... 100% ▕████████████████▏ 1.1 GB                         
pulling 369ca498f347... 100% ▕████████████████▏  387 B                         
pulling 6e4c38e1172f... 100% ▕████████████████▏ 1.1 KB                         
pulling f4d24e9138dd... 100% ▕████████████████▏  148 B                         
pulling a85fe2a2e58e... 100% ▕████████████████▏  487 B                         
verifying sha256 digest 
writing manifest 
success 
```
登入後複製
構建抹布鏈
```
!pip install langchain==0.3.11
!pip install langchain-openai==0.2.12
!pip install langchain-community==0.3.11
!pip install langchain-chroma==0.1.4
```
登入後複製
>加載連接到LLM
```
from getpass import getpass
OPENAI_KEY = getpass('Enter Open AI API Key: ')
```
登入後複製
langchain語法用於抹布鏈
```
import os
os.environ['OPENAI_API_KEY'] = OPENAI_KEY
```
登入後複製
```
from langchain_openai import OpenAIEmbeddings
openai_embed_model = OpenAIEmbeddings(model='text-embedding-3-small')
```
登入後複製
```
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader('AgenticAI.pdf')
pages = loader.load_and_split()
texts = [doc.page_content for doc in pages]

from langchain_chroma import Chroma
chroma_db = Chroma.from_texts(
texts=texts,
collection_name='db_docs',
collection_metadata={"hnsw:space": "cosine"}, # Set distance function to cosine
embedding=openai_embed_model
)
```
登入後複製
>查看我們有關DeepSeek工作和與類似模型進行比較的詳細文章：

> DeepSeek R1- Openai的O1最大競爭對手在這裡！
>
```
similarity_threshold_retriever = chroma_db.as_retriever(search_type="similarity_score_threshold",search_kwargs={"k": 3,"score_threshold": 0.3})

query = "what is the old capital of India?"
top3_docs = similarity_threshold_retriever.invoke(query)
top3_docs
```
登入後複製
>使用DeepSeek-V3
構建AI應用程序
> deepSeek-v3 vs gpt-4o vs llama 3.3 70b
```
[]
```
登入後複製
deepseek v3 vs gpt-4o：哪個更好？
deepseek r1 vs openai o1：哪個更好？
```
query = "What is Agentic AI?"
top3_docs = similarity_threshold_retriever.invoke(query)
top3_docs
```
登入後複製
>
如何訪問DeepSeek Janus Pro 7b？

結論
- > DeepSeek R1