기술 주변기기 일체 포함 JAMBA 1.5 : 하이브리드 맘바 트랜스포머 아키텍처를 특징으로합니다

JAMBA 1.5 : 하이브리드 맘바 트랜스포머 아키텍처를 특징으로합니다

Mar 19, 2025 am 11:15 AM

Jamba 1.5 : 장기 텍스트 처리를위한 강력한 하이브리드 언어 모델

AI21 Labs의 최첨단 대형 언어 모델 인 Jamba 1.5는 광범위한 텍스트 컨텍스트를 처리하는 데 인상적인 기능을 자랑합니다. Jamba 1.5 대형 (940 억 파라미터)과 Jamba 1.5 Mini (120 억 파라미터)의 두 가지 버전으로 제공됩니다. Mamba Structured State Space Model (SSM)과 전통적인 변압기 아키텍처를 결합한 고유 한 하이브리드 아키텍처를 활용합니다. 이 혁신적인 접근 방식은 전례없는 256K 효과적인 컨텍스트 창을 처리 할 수 ​​있으며, 이는 오픈 소스 모델의 중요한 도약입니다.

JAMBA 1.5 : 하이브리드 맘바 트랜스포머 아키텍처를 특징으로합니다

주요 기능 및 기능 :

  • 대규모 컨텍스트 창 : 최대 256k 토큰의 프로세스로 긴 문서와 복잡한 작업에 이상적입니다.
  • 하이브리드 아키텍처 : 최적의 효율성과 성능을 위해 변압기 및 맘바 모델의 강점을 결합합니다.
  • 효율적인 양자화 : Memory Footprint 감소 및 더 빠른 처리를 위해 ExpertsInt8 Quantization을 사용합니다.
  • 다국어 지원 : 영어, 스페인어, 프랑스어, 포르투갈어, 이탈리아, 네덜란드, 독일어, 아랍어 및 히브리어 등 9 개 언어에 걸쳐 효과적으로 기능합니다.
  • 다목적 응용 프로그램 : 질문 답변, 요약, 텍스트 생성 및 분류를 포함하여 광범위한 NLP 작업에 적합합니다.
  • 액세스 가능한 배포 : AI21의 Studio API, Hugging Face 및 Cloud Partners를 통해 사용할 수 있습니다.

건축 세부 사항 :

JAMBA 1.5 : 하이브리드 맘바 트랜스포머 아키텍처를 특징으로합니다

측면 세부
기본 아키텍처 MOE (Mix-of-Experts) 모듈을 갖춘 하이브리드 변압기-엄마 아키텍처
모델 변형 Jamba-1.5-Large (94b 활성 매개 변수, 398b 총) 및 Jamba-1.5-Mini (12b 활성 매개 변수, 52b 총)
층 구성 각각 8 개의 층이있는 9 개의 블록; 1 : 7 변압기 대 맘바 층의 비
전문가 혼합 (Moe) 16 명의 전문가, 토큰 당 상위 2 개를 선택합니다
숨겨진 치수 8192
주의 머리 64 쿼리 헤드, 8 개의 키 가치 헤드
컨텍스트 길이 최대 256k 토큰
양자화 기술 MOE 및 MLP 계층의 전문가 인 경우
활성화 기능 통합 변압기 및 맘바 활성화
능률 8x80GB GPU의 높은 처리량 및 낮은 대기 시간에 최적화

Jamba 1.5 액세스 및 활용 :

Jamba 1.5는 AI21의 Studio API와 Hugging Face를 통해 쉽게 액세스 할 수 있습니다. 특정 도메인이 성능을 더욱 향상시키기 위해 모델을 미세 조정할 수 있습니다. AI21 API를 사용한 파이썬 예제는 다음과 같습니다.

파이썬 예 :

 ai21 import ai21Client에서
ai21.models에서 chatmessage 가져 오기

message = [chatmessage (content = "2-3 줄의 토큰 화기는 무엇입니까?", 역할 = "사용자")]
client = ai21client (api_key = '') # api 키로 ''교체
응답 = client.chat.completions.create (
    메시지 = 메시지,
    Model = "Jamba-1.5-Mini",
    스트림 = 참
))
응답으로 청크 :
    print (chunk.choices [0] .delta.content, end = "") 
로그인 후 복사

JAMBA 1.5 : 하이브리드 맘바 트랜스포머 아키텍처를 특징으로합니다JAMBA 1.5 : 하이브리드 맘바 트랜스포머 아키텍처를 특징으로합니다JAMBA 1.5 : 하이브리드 맘바 트랜스포머 아키텍처를 특징으로합니다

결론:

Jamba 1.5는 대형 언어 모델에서 중요한 발전을 나타내며, 강력한 전력과 효율성을 조화시킵니다. 다재다능한 애플리케이션 및 액세스 가능한 배포 옵션과 함께 매우 긴 컨텍스트를 처리하는 기능은 광범위한 NLP 작업을위한 유용한 도구입니다.

자주 묻는 질문 (FAQ) : (원본과 유사하지만 간결함을 위해 다시 제작)

  • Q1 : Jamba 1.5는 무엇입니까? A : 94B (대형) 또는 12B (MINI) 매개 변수를 가진 하이브리드 변압기-엄마 대형 언어 모델.
  • Q2 : Jamba 1.5는 긴 상황을 효율적으로 어떻게 처리합니까? A : 하이브리드 아키텍처 및 전문가가 양자화를 통해 메모리 사용이 줄어든 256K 토큰 컨텍스트 창을 가능하게합니다.
  • Q3 : ExpertsInt8 Quantization이란 무엇입니까? A : 효율성을 향상시키기 위해 MOE 및 MLP 층에서 INT8 정밀도를 사용한 압축 기술.
  • Q4 : Jamba 1.5가 공개적으로 제공됩니까? A : 그렇습니다. Jamba Open Model 라이센스에 따라 포옹을 통해 액세스 할 수 있습니다.

위 내용은 JAMBA 1.5 : 하이브리드 맘바 트랜스포머 아키텍처를 특징으로합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Agno 프레임 워크를 사용하여 멀티 모달 AI 에이전트를 구축하는 방법은 무엇입니까? Agno 프레임 워크를 사용하여 멀티 모달 AI 에이전트를 구축하는 방법은 무엇입니까? Apr 23, 2025 am 11:30 AM

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다. Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다. Apr 16, 2025 am 11:37 AM

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

SQL에서 열을 추가하는 방법? - 분석 Vidhya SQL에서 열을 추가하는 방법? - 분석 Vidhya Apr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

Rocketpy -Analytics Vidhya를 사용한 로켓 런칭 시뮬레이션 및 분석 Rocketpy -Analytics Vidhya를 사용한 로켓 런칭 시뮬레이션 및 분석 Apr 19, 2025 am 11:12 AM

Rocketpy : 포괄적 인 가이드로 로켓 발사 시뮬레이션 이 기사는 강력한 파이썬 라이브러리 인 Rocketpy를 사용하여 고출력 로켓 런칭을 시뮬레이션하는 것을 안내합니다. 로켓 구성 요소 정의에서 Simula 분석에 이르기까지 모든 것을 다룰 것입니다.

DeepCoder-14B : O3-MINI 및 O1에 대한 오픈 소스 경쟁 DeepCoder-14B : O3-MINI 및 O1에 대한 오픈 소스 경쟁 Apr 26, 2025 am 09:07 AM

AI 커뮤니티의 상당한 개발에서 Agentica와 AI는 DeepCoder-14B라는 오픈 소스 AI 코딩 모델을 발표했습니다. OpenAI와 같은 폐쇄 소스 경쟁 업체와 동등한 코드 생성 기능 제공

프롬프트 : Chatgpt는 가짜 여권을 생성합니다 프롬프트 : Chatgpt는 가짜 여권을 생성합니다 Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia는 월요일에 AI SuperComputers를 제조하기 시작할 것이라고 말했다. 이 발표는 트럼프 SI 대통령 이후에 나온다

하나의 프롬프트는 모든 주요 LLM의 보호 조치를 우회 할 수 있습니다 하나의 프롬프트는 모든 주요 LLM의 보호 조치를 우회 할 수 있습니다 Apr 25, 2025 am 11:16 AM

Hiddenlayer의 획기적인 연구는 LLMS (Leading Lange Language Models)에서 중요한 취약점을 드러냅니다. 그들의 연구 결과는 "정책 인형극"이라는 보편적 인 바이 패스 기술을 보여줍니다.

Guy Peri는 데이터 변환을 통해 McCormick의 미래를 도와줍니다 Guy Peri는 데이터 변환을 통해 McCormick의 미래를 도와줍니다 Apr 19, 2025 am 11:35 AM

Guy Peri는 McCormick의 최고 정보 및 디지털 책임자입니다. Peri는 그의 역할에 7 개월 만에 회사의 디지털 기능에 대한 포괄적 인 변화를 빠르게 발전시키고 있습니다. 데이터 및 분석에 대한 그의 경력에 ​​중점을 둡니다

See all articles