Deepseek Janus Pro를 사용하여 멀티 모달 래그 향상-일체 포함-php.cn

1 Step 1. 필요한 라이브러리 설치 2 단계. pdf

2. 통합 변압기 아키텍처

집

기술 주변기기

일체 포함

Deepseek Janus Pro를 사용하여 멀티 모달 래그 향상

William Shakespeare

Mar 05, 2025 am 09:47 AM

2025 년 1 월 27 일에 출시 된 Deepseek Janus Pro 1B는 텍스트 프롬프트에서 이미지를 처리하고 생성하도록 구축 된 고급 멀티 모달 AI 모델입니다. 텍스트를 기반으로 이미지를 이해하고 만들 수있는이 10 억 파라미터 버전 (1B)은 텍스트-이미지 생성 및 이미지 이해를 포함하여 광범위한 응용 프로그램에 대한 효율적인 성능을 제공합니다. 또한 사진에서 자세한 캡션을 생성하는 데 탁월하여 창의적 및 분석 작업을위한 다양한 도구입니다. 학습 목표

기능을 향상시키는 아키텍처 및 주요 기능 분석. 기본 디자인과 성능에 미치는 영향 탐색 검색된 세대 (RAG) 시스템 구축에 대한 단계별 안내서. 실제 응용 프로그램에 대한 Deepseek Janus Pro 10 억 모델 사용. Deepseek Janus Pro가 AI 중심 솔루션을 최적화하는 방법 이해

이 기사는 데이터 과학 블로그 톤의

의 일부로 출판되었습니다. 목차

학습 목표

Deepseek Janus Pro는 무엇입니까?

이미지 이해 및 생성을위한 디스 커플 리드 아키텍처 핵심 특징 <.> 통합 변압기 아키텍처 최적화 된 훈련 전략 Deepseek Janus Pro 1B 모델

1 Step 1. 필요한 라이브러리 설치 2 단계. pdf

4 단계. 저장된 이미지에서 쿼리 및 검색

키 테이크 아웨이
Deepseek Janus Pro 란 무엇입니까?

Janus-Pro는 이미지 이해와 생성에 대한 단일 시각 인코더에 의존하기보다는 시각적 인코딩을위한 별도의 특수 경로를 사용하여 이전의 멀티 모드 모델에서 분기됩니다.

이미지 이해 인코더. 이 경로는 이미지에서 의미 론적 특징을 추출합니다. 이미지 생성 인코더.

이 경로는 텍스트 설명에 따라 이미지를 종합합니다.

이 분리 된 아키텍처는 작업 별 최적화를 용이하게하여 해석과 창의적 합성 사이의 충돌을 완화시킵니다. 독립 인코더는 입력 기능을 해석 한 다음 통합 된 자동 회귀 변압기로 처리됩니다. 이를 통해 멀티 모달 이해와 생성 구성 요소는 가장 적합한 인코딩 방법을 독립적으로 선택할 수 있습니다. 도 읽기 : Deepseek의 Janus Pro가 Dall-E 3에 대항하여 어떻게 쌓이는가? 모델 아키텍처의 주요 특징 1. 시각적 이해 및 생성을위한 이중 경로 아키텍처

시각적 이해 경로 :

다중 모드 이해 작업의 경우, Janus Pro는 Siglip-L을 Visual Encoder로 사용하여 최대 384 × 384 해상도의 이미지 입력을 지원합니다. 이 고해상도 지원은 모델이 더 많은 이미지 세부 사항을 캡처하여 시각적 이해의 정확도를 향상시킬 수 있습니다. 시각적 생성 경로

: 이미지 생성 작업의 경우 Janus Pro는 16의 다운 샘플링 속도가있는 llamagen 토큰 화기를 사용하여보다 자세한 이미지를 생성합니다.

2. 통합 변압기 아키텍처

공유 변압기 백본은 Prostext 및 이미지 기능 융합입니다. 원시 입력을 기능으로 변환하는 독립 인코딩 방법은 통합 된 자동 회귀 변압기에 의해 처리됩니다.

3. 최적화 된 훈련 전략 이전 Janus 교육 에서이 모델에는 3 단계 교육 과정이있었습니다. 첫 번째 단계는 어댑터와 이미지 헤드 훈련에 중점을 두었습니다. 두 번째 단계는 통합 사전 조정을 처리했으며, 그 동안 이해 인코더 및 생성 인코더를 제외한 모든 구성 요소는 매개 변수를 업데이트했습니다. III 단계는 감독 된 미세 조정을 다루었으며, 훈련 중에 이해 인코더의 매개 변수를 더 잠금 해제함으로써 II 단계를 구축했습니다. 이것은 Janus Pro에서 개선되었습니다 :

단계 I의 훈련 단계를 늘려 Imagenet 데이터 세트에 대한 충분한 교육을 허용합니다. 또한 2 단계에서 텍스트-이미지 생성 교육을 위해 ImageNet 데이터가 완전히 삭제되었습니다. 대신 정상적인 텍스트-이미지 데이터를 사용하여 고밀도 설명을 기반으로 이미지를 생성하도록 모델을 교육했습니다. 이것은 훈련 효율과 전반적인 성능을 향상시키는 것으로 밝혀졌습니다.

이제 Deepseek Janus Pro를 사용하여 멀티 모달 헝겊을 만들어 봅시다 Deepseek Janus Pro 1B Model이있는 멀티 모달 헝겊 다음 단계에서, 우리는 DeepSeek Janus Pro 1B 모델을 기반으로 이미지를 쿼리하기 위해 멀티 모달 래그 시스템을 구축합니다. 1 단계. 필요한 라이브러리를 설치하십시오 2 단계. 이미지 임베딩 저장 Byaldi는 멀티 모달 래그 시스템을 설정하기위한 사용하기 쉬운 프레임 워크를 제공합니다. 위의 코드에서 볼 수 있듯이 시각적 기능을 사용하여 효율적인 문서 색인을 위해 설계된 모델 인 ColqWen2를로드합니다. 3 단계. 이미지를로드 pdf

우리는이 PDF를 사용하여 다음 단계에서 래그 시스템을 쿼리하고 구축합니다. 위의 코드에서는 벡터와 함께 이미지 PDF를 저장합니다.

4 단계. 저장된 이미지에서 쿼리 및 검색
PDF 페이지의 관련 페이지가 검색되어 쿼리를 기반으로 output_image.png로 저장됩니다.5 단계. Janus Pro 모델을로드하십시오

vlchatprocessor.from_pretrained ( "deepseek-ai/janus-pro-1b")
!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
로그인 후 복사
는 다중 모드 입력 (이미지 및 텍스트)을 처리하기 위해 전기 프로세서를로드합니다. 이 프로세서는 모델의 입력 데이터 (예 : 텍스트 및 이미지)를 처리하고 준비합니다. 토큰 화기는 vlchatprocessor에서 추출됩니다. 텍스트 입력을 토큰 화하여 모델에 적합한 형식으로 텍스트를 변환합니다. automodelforcausallm.from_pretrained (“DeepSeek-AI/Janus-Pro-1B”)
는 사전 훈련 된 Janus Pro 모델, 특히 인과 관계 모델링을 위해로드합니다.
또한 , 멀티 모달 대화 형식 는 사용자가 텍스트와 이미지를 모두 입력하는 곳에서 설정됩니다.
load_pil_images (대화)
는 대화 객체에 나열된 이미지를로드하고 PIL 이미지 형식으로 변환 할 수있는 함수이며, 이는 Python에서 이미지 처리에 일반적으로 사용됩니다.
프로세서 여기에는 텍스트와 이미지 데이터를 입력으로 가져 오는 텍스트와 이미지 데이터를 모두 가져 오는 텍스트와 이미지 데이터를 모두 가져옵니다. prepare_inputs_embeds (입력) 는 처리 된 입력을 취하는 메소드입니다 (입력은 텍스트와 이미지가 모두 포함되어 있음)이며 모델에 필요한 임베딩을 응답을 생성하는 데 필요한 임베딩을 준비합니다. .

6 단계. 출력 생성
코드는 준비된 입력 임베딩 (텍스트 및 이미지)을 사용하여 DeepSeek Janus Pro 1B 모델로부터 응답을 생성합니다. 패딩, 시작/끝 토큰, 최대 토큰 길이 및 캐싱 및 샘플링 사용 여부와 같은 여러 구성 설정을 사용합니다. 응답이 생성 된 후 토큰 ID를 토큰 화기를 사용하여 인간이 읽을 수있는 텍스트로 다시 디코딩합니다. 디코딩 된 출력은 답변 변수에 저장됩니다 전체 코드는이 Colab 노트에 있습니다 쿼리의 출력
다른 쿼리의 output
“프랑스의 수익은 무엇입니까?”

thecolqwen2 리트리버가 관련 페이지를 검색하더라도 위의 응답은 정확하지 않습니다. DeepSeek Janus Pro 1B 모델은 페이지에서 정확한 답변을 생성 할 수 없었습니다. 정확한 답변은 $ 2B입니다. 다른 쿼리의 output “”FY20이 시작된 이래 프로모션의 수는 무엇입니까?” 위의 응답은 PDF에 언급 된 텍스트와 일치하므로 정확합니다. 결론 결론적으로, Deepseek Janus Pro 1B 모델은 이미지 이해와 생성 작업을 최적화하는 디퍼링 된 아키텍처와 함께 멀티 모달 AI에서 중요한 발전을 나타냅니다. Janus Pro는 이러한 작업을 위해 별도의 시각적 인코더를 사용하고 교육 전략을 개선함으로써 텍스트-이미지 생성 및 이미지 분석에서 성능 향상을 제공합니다. 이 혁신적인 접근 방식 (Deepseek Janus Pro가있는 멀티 모달 래그)은 오픈 소스 접근성과 결합하여 AI 중심 시각적 이해력과 창조의 다양한 응용 프로그램을위한 강력한 도구입니다. 키 테이크 아웃
이중 경로가있는 멀티 모달 AI : Janus Pro 1B는 이미지 이해 (SIGLIP) 및 이미지 생성 (llamagen)을 위해 별도의 인코더를 사용하여 텍스트 및 이미지 프로세싱을 모두 통합하여 작업 별 성능을 향상시킵니다. 디퍼링 된 아키텍처 :

모델은 시각적 인코딩을 별개의 경로로 분리하여 이미지 이해와 생성에 대한 독립적 인 최적화를 가능하게하여 처리 작업의 충돌을 최소화합니다.

Unified Transformer 백본 : 공유 변압기 아키텍처는 텍스트 및 이미지의 기능을 병합하여보다 효과적인 AI 성능을 위해 멀티 모달 데이터 퓨전을 간소화합니다.
개선 된 교육 전략 : Janus Pro의 최적화 된 교육 접근 방식은 1 단계에서 증가 된 단계와 II 단계에서 특수 텍스트-이미지 데이터의 사용을 포함하여 교육 효율성 및 출력 품질을 크게 향상시킵니다.
오픈 소스 접근성 : Janus Pro 1B는 MIT 라이센스에 따라 Github에서 사용할 수 있으며 다양한 AI 중심 애플리케이션에서 광범위한 사용 및 적응을 장려합니다. 이 기사에 나와있는 미디어는 Analytics Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다. 자주 묻는 질문
q1. Deepseek Janus Pro 1b 란 무엇입니까?
ans. DeepSeek Janus Pro 1B는 텍스트 설명에서 이미지를 이해하고 생성 할 수있는 텍스트 및 이미지 처리를 모두 통합하도록 설계된 멀티 모달 AI 모델입니다. 텍스트-이미지 생성 및 이미지 이해와 같은 작업에서 효율적인 성능을위한 10 억 개의 매개 변수를 특징으로합니다. Janus Pro 1B의 아키텍처는 어떻게 작동합니까? ans. Janus Pro는 분리 된 시각적 인코딩으로 통합 변압기 아키텍처를 사용합니다. 이는 이미지 이해 및 생성을 위해 별도의 경로를 사용하여 각 작업에 대한 작업 별 최적화를 허용한다는 것을 의미합니다. Janus Pro의 교육 과정은 이전 버전과 어떻게 다릅니 까? Janus Pro는 교육 단계를 늘리고 전문화 된 텍스트-이미지 데이터를 선호하여 Imagenet 데이터 세트를 삭제하고 효율성과 성능 향상을위한 더 나은 미세 조정에 중점을 두어 이전 교육 전략을 향상시킵니다. Q4. Janus Pro 1B를 사용하면 어떤 종류의 응용 프로그램이 도움이 될 수 있습니까? Janus Pro 1B는 이미지 및 텍스트 처리 기능이 필요한 텍스트-이미지 생성, 이미지 이해 및 멀티 모달 AI 응용 프로그램과 관련된 작업에 특히 유용합니다. Janus-Pro는 Dall-e 3?

위 내용은 Deepseek Janus Pro를 사용하여 멀티 모달 래그 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.