Deepseek Janus Pro를 사용하여 멀티 모달 래그 향상
2025 년 1 월 27 일에 출시 된 Deepseek Janus Pro 1B는 텍스트 프롬프트에서 이미지를 처리하고 생성하도록 구축 된 고급 멀티 모달 AI 모델입니다. 텍스트를 기반으로 이미지를 이해하고 만들 수있는이 10 억 파라미터 버전 (1B)은 텍스트-이미지 생성 및 이미지 이해를 포함하여 광범위한 응용 프로그램에 대한 효율적인 성능을 제공합니다. 또한 사진에서 자세한 캡션을 생성하는 데 탁월하여 창의적 및 분석 작업을위한 다양한 도구입니다. 학습 목표
이 기사는 데이터 과학 블로그 톤의
이미지 이해 및 생성을위한 디스 커플 리드 아키텍처 핵심 특징 <.> 통합 변압기 아키텍처 최적화 된 훈련 전략 Deepseek Janus Pro 1B 모델
1 Step 1. 필요한 라이브러리 설치 2 단계. pdf
4 단계. 저장된 이미지에서 쿼리 및 검색- 5 단계 5. Janus Pro 모델을로드합니다. 6 단계. 출력 생성 결론
- 키 테이크 아웨이
-
Deepseek Janus Pro 란 무엇입니까? - : 이미지 이해와 텍스트 프롬프트를 기반으로 새로운 이미지의 생성과 관련된 작업에서 탁월합니다. 384 × 384 이미지 입력을 지원합니다 이미지 인코더 : 이미지 이해 작업을 위해 Janus는 Siglip을 사용하여 이미지를 인코딩합니다. Siglip은 Clip의 프레임 워크를 사용하지만 손실 기능을 쌍별 Sigmoid 손실로 대체하는 이미지 임베딩 모델입니다. 이미지 생성의 경우 Janus는 자동 회귀 이미지 생성 모드 인 Llamagen의 기존 인코더를 사용합니다. Llamagen은 대형 언어 모델의 차세대 예측 패러다임을 시각적 세대에 적용하는 이미지 생성 모델 제품군입니다. 오픈 소스 : 는 MIT 라이센스에 따라 Github에서 사용할 수 있으며, DeepSeek 모델 라이센스에 의해 모델 사용량이 있습니다.
DeepSeek Janus Pro는 텍스트 및 이미지 처리를 통합하여 텍스트 프롬프트에서 이미지를 이해하고 생성 할 수있는 멀티 모달 AI 모델입니다. 10 억 파라미터 버전 (1B)은 텍스트-이미지 생성 및 이미지 이해 작업과 같은 응용 프로그램에서 효율적인 성능을 위해 설계되었습니다. DeepSeek의 Janus Pro 시리즈에서 사용 가능한 주요 모델은 “Janus Pro 1B”및“Janus Pro 7B”이며, 매개 변수 크기가 주로 다르며, 7B 모델은 상당히 더 크고 텍스트-이미지 생성 작업에서 시각적 이해와 텍스트 생성 모두에서 텍스트-이미지 생성에서 개선 된 성능을 제공합니다. Janus Pro 1b 아키텍처 : Janus Pro는 통합 변압기 아키텍처를 사용하지만 이미지 이해와 생성 작업 모두에서 성능을 향상시키기 위해 시각적 인코딩을 별도의 경로로 분해합니다. 기능 도 읽기 : DeepSeek Janus Pro 7B에 액세스하는 방법? 이미지 이해 및 생성을위한 디퍼 커플 아키텍처 및 생성 - 이미지 이해 인코더. 이 경로는 이미지에서 의미 론적 특징을 추출합니다. 이미지 생성 인코더. 이 경로는 텍스트 설명에 따라 이미지를 종합합니다.
-
이 분리 된 아키텍처는 작업 별 최적화를 용이하게하여 해석과 창의적 합성 사이의 충돌을 완화시킵니다. 독립 인코더는 입력 기능을 해석 한 다음 통합 된 자동 회귀 변압기로 처리됩니다. 이를 통해 멀티 모달 이해와 생성 구성 요소는 가장 적합한 인코딩 방법을 독립적으로 선택할 수 있습니다. 도 읽기 : Deepseek의 Janus Pro가 Dall-E 3에 대항하여 어떻게 쌓이는가? 모델 아키텍처의 주요 특징 1. 시각적 이해 및 생성을위한 이중 경로 아키텍처
시각적 이해 경로 :
: 이미지 생성 작업의 경우 Janus Pro는 16의 다운 샘플링 속도가있는 llamagen 토큰 화기를 사용하여보다 자세한 이미지를 생성합니다.
2. 통합 변압기 아키텍처
3. 최적화 된 훈련 전략
-
우리는이 PDF를 사용하여 다음 단계에서 래그 시스템을 쿼리하고 구축합니다. 위의 코드에서는 벡터와 함께 이미지 PDF를 저장합니다.
4 단계. 저장된 이미지에서 쿼리 및 검색
-
PDF 페이지의 관련 페이지가 검색되어 쿼리를 기반으로 output_image.png로 저장됩니다.5 단계. Janus Pro 모델을로드하십시오 는 다중 모드 입력 (이미지 및 텍스트)을 처리하기 위해 전기 프로세서를로드합니다. 이 프로세서는 모델의 입력 데이터 (예 : 텍스트 및 이미지)를 처리하고 준비합니다.!pip install byaldi ollama pdf2image !sudo apt-get install -y poppler-utils !git clone https://github.com/deepseek-ai/Janus.git !pip install -e ./Janus
로그인 후 복사토큰 화기는 vlchatprocessor에서 추출됩니다. 텍스트 입력을 토큰 화하여 모델에 적합한 형식으로 텍스트를 변환합니다. automodelforcausallm.from_pretrained (“DeepSeek-AI/Janus-Pro-1B”) - 는 사전 훈련 된 Janus Pro 모델, 특히 인과 관계 모델링을 위해로드합니다.
- 또한 , 멀티 모달 대화 형식 는 사용자가 텍스트와 이미지를 모두 입력하는 곳에서 설정됩니다. load_pil_images (대화)
- 는 대화 객체에 나열된 이미지를로드하고 PIL 이미지 형식으로 변환 할 수있는 함수이며, 이는 Python에서 이미지 처리에 일반적으로 사용됩니다. 프로세서 여기에는 텍스트와 이미지 데이터를 입력으로 가져 오는 텍스트와 이미지 데이터를 모두 가져 오는 텍스트와 이미지 데이터를 모두 가져옵니다. prepare_inputs_embeds (입력) 는 처리 된 입력을 취하는 메소드입니다 (입력은 텍스트와 이미지가 모두 포함되어 있음)이며 모델에 필요한 임베딩을 응답을 생성하는 데 필요한 임베딩을 준비합니다. .
-
코드는 준비된 입력 임베딩 (텍스트 및 이미지)을 사용하여 DeepSeek Janus Pro 1B 모델로부터 응답을 생성합니다. 패딩, 시작/끝 토큰, 최대 토큰 길이 및 캐싱 및 샘플링 사용 여부와 같은 여러 구성 설정을 사용합니다. 응답이 생성 된 후 토큰 ID를 토큰 화기를 사용하여 인간이 읽을 수있는 텍스트로 다시 디코딩합니다. 디코딩 된 출력은 답변 변수에 저장됩니다 전체 코드는이 Colab 노트에 있습니다 쿼리의 출력
다른 쿼리의 - “프랑스의 수익은 무엇입니까?”
-
thecolqwen2 리트리버가 관련 페이지를 검색하더라도 위의 응답은 정확하지 않습니다. DeepSeek Janus Pro 1B 모델은 페이지에서 정확한 답변을 생성 할 수 없었습니다. 정확한 답변은 $ 2B입니다. 다른 쿼리의 output “”FY20이 시작된 이래 프로모션의 수는 무엇입니까?” 위의 응답은 PDF에 언급 된 텍스트와 일치하므로 정확합니다. 결론 결론적으로, Deepseek Janus Pro 1B 모델은 이미지 이해와 생성 작업을 최적화하는 디퍼링 된 아키텍처와 함께 멀티 모달 AI에서 중요한 발전을 나타냅니다. Janus Pro는 이러한 작업을 위해 별도의 시각적 인코더를 사용하고 교육 전략을 개선함으로써 텍스트-이미지 생성 및 이미지 분석에서 성능 향상을 제공합니다. 이 혁신적인 접근 방식 (Deepseek Janus Pro가있는 멀티 모달 래그)은 오픈 소스 접근성과 결합하여 AI 중심 시각적 이해력과 창조의 다양한 응용 프로그램을위한 강력한 도구입니다. 키 테이크 아웃 이중 경로가있는 멀티 모달 AI : Janus Pro 1B는 이미지 이해 (SIGLIP) 및 이미지 생성 (llamagen)을 위해 별도의 인코더를 사용하여 텍스트 및 이미지 프로세싱을 모두 통합하여 작업 별 성능을 향상시킵니다. 디퍼링 된 아키텍처 :
모델은 시각적 인코딩을 별개의 경로로 분리하여 이미지 이해와 생성에 대한 독립적 인 최적화를 가능하게하여 처리 작업의 충돌을 최소화합니다.
Unified Transformer 백본 : 공유 변압기 아키텍처는 텍스트 및 이미지의 기능을 병합하여보다 효과적인 AI 성능을 위해 멀티 모달 데이터 퓨전을 간소화합니다.
- 개선 된 교육 전략 : Janus Pro의 최적화 된 교육 접근 방식은 1 단계에서 증가 된 단계와 II 단계에서 특수 텍스트-이미지 데이터의 사용을 포함하여 교육 효율성 및 출력 품질을 크게 향상시킵니다.
-
오픈 소스 접근성 : Janus Pro 1B는 MIT 라이센스에 따라 Github에서 사용할 수 있으며 다양한 AI 중심 애플리케이션에서 광범위한 사용 및 적응을 장려합니다.
이 기사에 나와있는 미디어는 Analytics Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.
자주 묻는 질문 q1. Deepseek Janus Pro 1b 란 무엇입니까? - ans. DeepSeek Janus Pro 1B는 텍스트 설명에서 이미지를 이해하고 생성 할 수있는 텍스트 및 이미지 처리를 모두 통합하도록 설계된 멀티 모달 AI 모델입니다. 텍스트-이미지 생성 및 이미지 이해와 같은 작업에서 효율적인 성능을위한 10 억 개의 매개 변수를 특징으로합니다. Janus Pro 1B의 아키텍처는 어떻게 작동합니까? ans. Janus Pro는 분리 된 시각적 인코딩으로 통합 변압기 아키텍처를 사용합니다. 이는 이미지 이해 및 생성을 위해 별도의 경로를 사용하여 각 작업에 대한 작업 별 최적화를 허용한다는 것을 의미합니다. Janus Pro의 교육 과정은 이전 버전과 어떻게 다릅니 까? Janus Pro는 교육 단계를 늘리고 전문화 된 텍스트-이미지 데이터를 선호하여 Imagenet 데이터 세트를 삭제하고 효율성과 성능 향상을위한 더 나은 미세 조정에 중점을 두어 이전 교육 전략을 향상시킵니다. Q4. Janus Pro 1B를 사용하면 어떤 종류의 응용 프로그램이 도움이 될 수 있습니까? Janus Pro 1B는 이미지 및 텍스트 처리 기능이 필요한 텍스트-이미지 생성, 이미지 이해 및 멀티 모달 AI 응용 프로그램과 관련된 작업에 특히 유용합니다. Janus-Pro는 Dall-e 3?
-
오픈 소스 접근성 : Janus Pro 1B는 MIT 라이센스에 따라 Github에서 사용할 수 있으며 다양한 AI 중심 애플리케이션에서 광범위한 사용 및 적응을 장려합니다.
이 기사에 나와있는 미디어는 Analytics Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.
위 내용은 Deepseek Janus Pro를 사용하여 멀티 모달 래그 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

Shopify CEO Tobi Lütke의 최근 메모는 AI 숙련도가 모든 직원에 대한 근본적인 기대를 대담하게 선언하여 회사 내에서 중요한 문화적 변화를 표시합니다. 이것은 도망가는 트렌드가 아닙니다. 그것은 p에 통합 된 새로운 운영 패러다임입니다

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

내 칼럼을 처음 접할 수있는 분들을 위해, 나는 구체화 된 AI, AI 추론, AI의 첨단 획기적인 혁신, AI 교육, AI의 수비, ai re
