Deepseek R1 증류 모델을 사용한 AI 추론을위한 헝겊 시스템-일체 포함-php.cn

집

기술 주변기기

일체 포함

Deepseek R1 증류 모델을 사용한 AI 추론을위한 헝겊 시스템

尊渡假赌尊渡假赌尊渡假赌

Mar 05, 2025 am 10:47 AM

Deepseek R1 : 혁신적인 오픈 소스 언어 모델

중국 AI 스타트 업인 Deepseek는 2025 년 1 월 Openai의 O1과 같은 주요 모델에 도전하는 획기적인 오픈 소스 언어 모델 인 DeepSeek R1을 출시했습니다. MOE (Mix-of-Experts) 아키텍처, 강화 학습 및 추론에 대한 강조의 독특한 조화는 그것을 구별시킵니다. 6,710 억 개의 매개 변수를 자랑하는 것은 요청 당 370 억에 불과하여 계산 효율을 최적화합니다. DeepSeek R1의 고급 추론은 LLAMA 및 Qwen과 같은 더 작고 액세스 가능한 오픈 소스 모델로 증류되며 기본 DeepSeek R1 모델에 의해 생성 된 데이터를 사용하여 미세 조정됩니다.

이 튜토리얼 세부 사항은 DeepSeek-R1-Distill-Llama-8B 모델을 사용하여 검색 증강 생성 (RAG) 시스템을 구축합니다. LLAMA 3.1 8B 모델 DeepSeek R1-GENERATED 데이터로 미세 조정.

주요 학습 목표 :

Deepseek R1의 건축, 혁신 및 강화 학습 기술을 파악하십시오 추론 강화에서 그룹 상대 정책 최적화 (GRPO)의 역할을 이해합니다. 경쟁 업체에 비해 DeepSeek R1의 벤치 마크 성능 및 효율성을 분석하십시오. DeepSeek R1의 증류 된 라마 및 Qwen 모델을 사용하여 Rag 시스템을 구현하십시오.

(이 기사는 데이터 과학 블로그의 일부입니다.)

DeepSeek 소개 r1 deepseek r1의 구별되는 특징

Deepseek r1

의 grpo DeepSeek R1의 벤치 마크 성능 deepseek r1 증류 모델
deepseek-r1-distill-qwen-qwen-1.5b 가있는 헝겊 시스템 구축
결론 자주 묻는 질문

Deepseek R1과 전임자 인 DeepSeek R1-Zero는 개척 추론 모델입니다. Deepseek R1-Zero는 감독 된 미세 조정 (SFT)없이 대규모 강화 학습 (RL)을 통해서만 훈련을 받았으며 인상적인 추론 능력을 보여주었습니다. 그러나 가독성과 언어 혼합 문제로 어려움을 겪었습니다. DeepSeek R1은 RL 이전의 "콜드 스타트"데이터를 통합하여 이러한 제한 사항을 해결하여 추론 및 비 계급 작업 모두에 대한 강력한 기반을 제공합니다.

Deepseek r1의 구별 기능 :

Deepseek R1의 고급 아키텍처 및 효율성 AI 성능을 재정의합니다 주요 혁신은 다음과 같습니다

MOE 아키텍처 : 표준 변압기 모델과 달리 DeepSeek R1의 MOE 아키텍처는 요청 당 6,710 억 매개 변수 중 370 억 개만 활성화하여 효율성을 높이고 비용 절감을 활성화합니다. 강화 학습 : rl 추론 능력을 향상시켜 별도의 가치 기능 모델이 필요하지 않아 미세 조정을 간소화합니다.
비용 효율성 : 비슷한 프로젝트보다 적은 수의 자원 (2,000 Nvidia GPU, ~ 560 만 달러)을 사용하여 훈련되었습니다. API 비용이 크게 줄어 듭니다. 우수한 벤치 마크 성능 : DeepSeek R1은 정확성 및 백분위 수 테스트에서 경쟁 업체를 지속적으로 능가합니다 (예 : AIME 2024, Codeforces의 96.3%). 확장 성 : "증류"버전 (1.5b ~ 70b 매개 변수) 다양한 하드웨어에 대한 접근성을 보장합니다. 긴 컨텍스트 처리 :
Deepseek R1의 강화 학습 :

Deepseek R1의 혁신적인 RL 사용은 전통적인 방법과의 패러다임 전환을 나타냅니다. 활용 :

Pure RL : 는 주로 RL에 의존하여 일반적인 감독 된 미세 조정을 우회합니다.

자기 진화 : 반복 시행 착오를 통해 성능을 개선합니다 정확도 및 형식 보상 : 보상 정확한 예측 및 잘 구조화 된 응답 보상. 사슬의 사슬 (COT) 추론 :

는 추론 과정을 단계별로 표현합니다 효율성 :

는 깎아 지른 수량보다 데이터 품질을 우선시합니다 결합 된 RL 및 SFT : 는 고품질의 "콜드 스타트"데이터를 코 히어 런트 출력을 위해 RL 및 SFT를 결합합니다. DeepSeek r1의 grpo :

GRPO (그룹 상대 정책 최적화)는 LLM 추론을 향상시킵니다. 값 함수 모델에 대한 필요성을 제거하여 PPO를 향상시킵니다.

GRPO의 단계는 다음과 같습니다. 샘플링 출력, 보상 스코어링, 우위 계산 (그룹 평균에 비해) 및 정책 최적화. Deepseek R1의 벤치 마크 성능 :

DeepSeek R1의 인상적인 벤치 마크 결과는 다음과 같습니다

Math-500 : swe-bench 확인 :

AIME 2024 : OpenAi의 OpenAi-O1-1217과 비교 가능
DeepSeek R1의 지식은 80 만 명의 Deepseek R1 생성 예제의 데이터 세트를 사용하여 소규모 모델로 증류됩니다. 이를 통해 Llama 및 Qwen과 같은 모델로 추론 기능을 효율적으로 전송할 수 있습니다.
DeepSeek-R1-Distill-Qwen-1.5B를 갖춘 헝겊 시스템 구축 : (이 섹션은 지정된 모델 및 라이브러리를 사용하여 RAG 시스템을 설정하기위한 세부 코드 예제가 포함되어 있습니다. 길이 제약 조건으로 인해이 부분은 생략되었지만 라이브러리 설치, PDF로드, 임베드 제작, 모델을 적재하고, 파이프 라인을로드하고, 래그 라인을 만들고, querying 결론 :

Deepseek R1은 우수한 성능과 효율성을 위해 순수한 RL과 혁신적인 기술을 활용하여 언어 모델 추론의 상당한 발전을 의미합니다. 증류 된 모델은 더 넓은 범위의 응용 프로그램에 고급 추론에 액세스 할 수 있도록합니다. 자주 묻는 질문 :
(이 섹션은 원본 텍스트와 비슷한 DeepSeek R1에 대한 자주 묻는 질문에 대한 답변이 포함됩니다.)
(참고 : 이미지 URL은 변하지 않습니다.)

위 내용은 Deepseek R1 증류 모델을 사용한 AI 추론을위한 헝겊 시스템의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.