목차
목차
다목적 멀티 태스킹 성능 (번역, 요약, Q & A)
T5
매개 변수 크기
건축학
유효성
Qwen-2
라마 3.2
미스트랄 니모
미스 트랄 작은 3
추론 중심의 작업
O3-Mini
PHI-4
건축 및 훈련
텍스트 생성
distilgpt-2
smollm
일반 NLU (텍스트 분류, 감정 분석, 명명 된 엔티티 인식)
미닐름
MobileBert
Microsoft Phi 3.5 미니
젬마 2
Tinybert
Distilbert
결론
자주 묻는 질문
기술 주변기기 일체 포함 2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

Mar 15, 2025 am 09:53 AM

올해 OpenAi의 O1과 같은 소형 언어 모델 (CLMS)은 상당한 관심을 끌었으며 인상적인 자연어 처리 기능을 보여줍니다. 그러나 많은 응용 프로그램에는 대형 모델의 엄청난 리소스가 필요하지 않습니다. 소형 언어 모델 (SLM)을 입력하십시오-예산 의식 응용 프로그램 및 제한된 계산 환경에 이상적인 효율적이고 간소화 된 솔루션.

SLM 균형 성능 및 효율성. 최적화 된 아키텍처와 크기는 에지 장치, 자원 제약 시스템 및 빠른 추론이 필요한 응용 프로그램에 적합합니다. 모바일 앱 전원에서 오프라인 NLP 기능 제공에 이르기까지 이러한 모델은 고급 언어 기술을 민주화하고 있습니다.

이 블로그는 13 개의 최고 성능 SLM을 탐색합니다. 경량 솔루션을 찾는 개발자이든 효율적인 NLP를 조사하는 연구원이든,이 목록은 더 작은 것이 더 좋을 수 있음을 보여줍니다. 이러한 소형 모델이 어떻게 큰 영향을 미치는지 살펴 보겠습니다.

목차

  • 다목적 멀티 태스킹 성능 (번역, 요약, Q & A)
    • T5
    • Qwen-2
    • 라마 3.2
    • 미스트랄 니모
    • 미스 트랄 작은 3
  • 추론 중심의 작업
    • O3-Mini
    • PHI-4
  • 텍스트 생성
    • distilgpt-2
    • smollm
  • 일반 NLU (텍스트 분류, 감정 분석, 명명 된 엔티티 인식)
    • 미닐름
    • MobileBert
    • Microsoft Phi 3.5 미니
    • 젬마 2
    • Tinybert
    • Distilbert
  • 자주 묻는 질문

SLM에 대한 더 깊은 다이빙은 다음을 참조하십시오 : SLM (Small Language Models)은 무엇입니까? 이제이 13 개의 주요 SLM을 살펴 보겠습니다.

다목적 멀티 태스킹 성능 (번역, 요약, Q & A)

T5

Google Research의 T5 (Text-to-Text Transfer Transformer)는 다양한 NLP 작업 (Translation, Summarization, Q & A)에 통합 된 텍스트-텍스트 프레임 워크를 사용하는 다양한 모델입니다.

매개 변수 크기

T5는 T5-Small (6 천만 파라미터)에서 T5-11B (110 억 파라미터)까지 다양한 크기를 제공하며 다양한 리소스 요구를 충족시킵니다.

건축학

T5의 Transformer Architecture는 인코더 및 디코더 구성 요소를 사용하여 모든 작업을 텍스트-텍스트 문제로 프레임하여 유연성을 강조합니다. 대규모 데이터 세트에서 사전 훈련하면 이해가 향상됩니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

T5는 Open-Source (Apache 2.0 라이센스)이며 Tensorflow 및 Hugging Face를 통해 액세스 할 수 있습니다.

Qwen-2

QWEN-2는 다양한 응용 프로그램에 적합한 텍스트 생성, 분류 및 요약에서 효율적인 CLM입니다. 모듈 식 디자인은 제한된 하드웨어에 이상적입니다.

매개 변수 크기

QWEN-2는 30 억, 70 억 및 130 억 파라미터 버전으로 제공되며 다양한 응용 분야의 확장 성을 제공합니다.

건축학

QWEN-2의 고급 변압기 아키텍처는 속도와 안정성을 위해 로터리 위치 임베딩 및 적응 사전 정규화와 같은 기술을 사용합니다. 모듈성은 적응성을 보장합니다.

유효성

QWEN-2는 오픈 소스이며 구독을 통해 사용할 수있는 일부 고급 기능이 있습니다.

라마 3.2

LLAMA 3.2는 자원 효율성으로 고성능을 우선시하여 계산 오버 헤드가 낮은 응용 프로그램에 적합합니다.

매개 변수 크기

LLAMA 3.2는 13 억에서 130 억 파라미터 범위의 버전을 제공하므로 사용자가 요구에 따라 선택할 수 있습니다.

건축학

LLAMA 3.2는 그룹화 된 쿼리주의, 로터리 위치 임베딩 (ROPE) 및 SWIGLU 활성화를 사용하여 효율성과 성능을 사용합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Llama 3.2는 오픈 소스이며, 무료 계층 및 확장 된 기능 및 지원을위한 유료 옵션이 있습니다.

미스트랄 니모

Mistral Nemo는 고품질 언어 이해와 세대를 위해 설계된 작고 효율적인 CLM으로 성능과 통합 용이성을 강조합니다.

매개 변수 크기

Mistral Nemo는 13 억, 70 억 및 130 억 파라미터 버전으로 제공됩니다.

건축학

Mistral Nemo의 변압기 기반 아키텍처는 효율적인 메모리 사용 및 처리량을 위해 최적화 된주의 메커니즘과 강화 된 토큰 임베딩을 사용합니다.

유효성

Mistral Nemo는 오픈 소스입니다.

미스 트랄 작은 3

Mistral Small 3은 하드웨어 요구 사항이 적은 생성 AI 작업의 약 80%를 처리합니다.

매개 변수 크기

Mistral Small 3에는 240 억 개의 매개 변수가있어 훨씬 더 큰 모델과 비교할 수 있습니다. 단일 고급 GPU 또는 강력한 노트북에 배포 할 수 있습니다.

건축학

Mistral Small 3은 경쟁력이 낮은 성능을 위해 경쟁 모델보다 적은 레이어를 사용합니다. 사전 훈련 및 명령 조정 버전으로 제공됩니다.

유효성

Mistral Small 3은 오픈 소스 (Apache 2.0 라이센스)이며, Hugging Face, Ollama 및 Kaggle에서 사용할 수 있습니다.

추론 중심의 작업

O3-Mini

O3-Mini는 매개 변수 수가 감소 함에도 불구하고 고성능을 달성하는 소형 모델로서 자원 제약 장치에 적합합니다.

매개 변수 크기

O3-MINI의 매개 변수 카운트가 크게 감소하면 리소스가 제한된 장치에서 효율적으로 작동 할 수 있습니다.

건축학

OpenAI의 추론 모델 시리즈의 일환으로 O3-MINI는 텍스트 입력/출력 및 조정 가능한 추론 수준을 지원합니다.

유효성

O3-MINI는 ChatGpt, OpenAI API, Microsoft Azure OpenAi 서비스 및 Open 라우터를 통해 액세스 할 수 있습니다.

PHI-4

Microsoft의 PHI-4 (140 억 파라미터)는 계산 효율성을 유지하면서 추론 작업에 뛰어납니다.

매개 변수 크기

PHI-4의 140 억 파라미터는 추론 효율성과 계산 요구를 줄이는 데 최적화되었습니다.

건축 및 훈련

합성 데이터 생성 및 정제 기술을 포함한 PHI-4의 아키텍처 및 교육 프로세스는 추론 능력을 향상시킵니다.

유효성

PHI-4는 현재 독점적입니다.

텍스트 생성

distilgpt-2

Distilgpt-2는 더 작고 효율적인 GPT-2 버전으로 대부분의 기능을 유지하면서 크기를 크게 줄입니다.

매개 변수 크기

DistilGpt-2는 일반적으로 약 8,800 만 파라미터를 가지며, 이는 GPT-2에서 크게 감소합니다.

건축학

DistilGPT-2는 GPT-2와 유사한 변압기 아키텍처를 사용하지만 지식 증류를 통해 달성 된 층이 적습니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Distilgpt-2는 오픈 소스 (포옹 얼굴)입니다.

smollm

SMOLLM은 계산 공간이 줄어든 효율적인 NLP를 위해 설계된 경량 모델입니다.

매개 변수 크기

Smollm은 천만에서 3 억 개의 매개 변수의 다양한 크기를 제공합니다.

건축학

SMOLLM은 가지 치기, 양자화 및 적응 형 계산 방법과 함께 변압기 기반 설계를 사용하여 효율성을 사용합니다.

유효성

Smollm은 오픈 소스이며 무료 계층 및 유료 옵션이 있습니다.

일반 NLU (텍스트 분류, 감정 분석, 명명 된 엔티티 인식)

미닐름

Microsoft의 Minilm은 지식 증류 기술을 사용하는 작고 효율적인 모델입니다.

매개 변수 크기

Minilm은 2,200 만에서 3 억 8 천만 개의 매개 변수를 제공합니다.

건축학

Minilm은 지식 증류를 통합하여 더 큰 모델에서 성능을 전달하는 깊은 자체 정보 메커니즘을 사용합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Minilm은 오픈 소스 (포옹, Github)입니다.

MobileBert

MobileBert는 자원으로 제한된 장치 용으로 설계된 Bert의 가벼운 적응입니다.

매개 변수 크기

MobileBert에는 약 2,500 만 개의 매개 변수가 있습니다.

건축학

MobileBert는 병목 현상 구조, 역 병목 현상 레이어 및 효율성을 위해 4 배의 피드 포워드 네트워크를 사용합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

MobileBert는 오픈 소스입니다.

Microsoft Phi 3.5 미니

Microsoft Phi 3.5 미니는 제한된 자원으로 강력한 자연어 이해를위한 효율성과 성능을 균형을 유지합니다.

매개 변수 크기

PHI 3.5 MINI는 13 억 및 30 억 파라미터 버전으로 제공됩니다.

건축학

PHI 3.5 MINI의 변압기 아키텍처는 효율성을 위해 최적화 된주의 메커니즘을 사용합니다.

유효성

Microsoft Phi 3.5 Mini는 독점적이며 Microsoft Azure AI 서비스 (무료 및 유료 계층)에 통합되었습니다.

젬마 2

Gemma 2는 효율적인 NLU 및 생성 작업, 정확도 및 속도의 균형을 맞추기 위해 설계되었습니다.

매개 변수 크기

Gemma 2는 1 억 2 천만, 3 억 5 천만 및 12 억 파라미터의 버전을 제공합니다.

건축학

Gemma 2는 역동적 인주의 헤드 및 층 정규화 향상과 함께 간소화 된 변압기 아키텍처를 사용합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Gemma 2는 무료 및 프리미엄 옵션을 갖춘 오픈 소스 (허용 라이센스)입니다.

Tinybert

Tinybert는 증류 된 버전의 Bert로 계산 복잡성과 메모리 발자국을 줄입니다.

매개 변수 크기

Tinybert의 가장 작은 버전에는 약 1,400 만 개의 매개 변수가 있으며 더 큰 버전은 약 6 천 6 백만입니다.

건축학

Tinybert는 비슷한 변압기 아키텍처를 사용하여 Bert가 있지만 층은 적고 치수가 줄어 듭니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Tinybert는 오픈 소스 (Apache License 2.0)이며 포옹 페이스 트랜스포머를 통해 액세스 할 수 있습니다.

Distilbert

Distilbert는 Bert의 대부분을 유지하는 Bert의 작고 빠르며 가벼운 버전입니다.

매개 변수 크기

Distilbert에는 약 6,600 만 개의 매개 변수가 있습니다.

건축학

Distilbert는 층의 수를 줄이고 지식 증류를 사용하여 Bert의 아키텍처를 단순화합니다.

2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya

유효성

Distilbert는 오픈 소스 (포옹 얼굴 변압기)입니다.

결론

SLM은 성능, 효율성 및 접근성의 균형을 제공하여 NLP에 혁명을 일으키고 있습니다. 자원으로 제한된 환경에 대한 적합성은 다양한 응용 프로그램에 이상적입니다. 오픈 소스 및 독점 모델은 모두 혁신을 주도하고 고급 언어 기술에 대한 액세스를 확대하고 있습니다. AI 채택이 증가함에 따라 SLM은 NLP를 효율적이고 포괄적으로 스케일링하는 데 중요합니다.

자주 묻는 질문

Q1. 소규모 언어 모델을 오프라인으로 사용할 수 있습니까? A. 예, 가벼운 특성을 통해 다양한 장치에서 오프라인 배포가 가능합니다.

Q2. 작은 언어 모델은 어떻게 미세 조정됩니까? A. 미세 조정은 더 작은 데이터 세트를 사용하여 미리 훈련 된 모델을 특정 작업에 적용합니다.

Q3. 소규모 언어 모델은 안전하고 비공개입니까? A. 로컬 배치는 보안 및 개인 정보를 향상시킬 수 있지만 구현 세부 정보는 중요합니다.

위 내용은 2025 용 13 개의 작은 언어 모델 (SLM) - 분석 Vidhya의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. 10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다. Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - &#8217

GPT-4O vs Openai O1 : 새로운 OpenAI 모델은 과대 광고 가치가 있습니까? GPT-4O vs Openai O1 : 새로운 OpenAI 모델은 과대 광고 가치가 있습니까? Apr 13, 2025 am 10:18 AM

소개 OpenAi는 기대가 많은 "Strawberry"아키텍처를 기반으로 새로운 모델을 출시했습니다. O1로 알려진이 혁신적인 모델은 추론 기능을 향상시켜 문제를 통해 생각할 수 있습니다.

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics Vidhya Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics Vidhya Apr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

SQL에서 열을 추가하는 방법? - 분석 Vidhya SQL에서 열을 추가하는 방법? - 분석 Vidhya Apr 17, 2025 am 11:43 AM

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

Agno 프레임 워크를 사용하여 멀티 모달 AI 에이전트를 구축하는 방법은 무엇입니까? Agno 프레임 워크를 사용하여 멀티 모달 AI 에이전트를 구축하는 방법은 무엇입니까? Apr 23, 2025 am 11:30 AM

에이전트 AI에서 작업하는 동안 개발자는 종종 속도, 유연성 및 자원 효율성 사이의 상충 관계를 탐색하는 것을 발견합니다. 나는 에이전트 AI 프레임 워크를 탐구하고 Agno를 만났다 (이전에는 ph-이었다.

라마 드라마 너머 : 대형 언어 모델에 대한 4 개의 새로운 벤치 마크 라마 드라마 너머 : 대형 언어 모델에 대한 4 개의 새로운 벤치 마크 Apr 14, 2025 am 11:09 AM

문제가있는 벤치 마크 : 라마 사례 연구 2025 년 4 월 초, Meta는 LLAMA 4 제품군을 공개하여 GPT-4O 및 Claude 3.5 Sonnet과 같은 경쟁자들에 대해 호의적으로 배치 한 인상적인 성능 지표를 자랑했습니다. Launc의 중심

Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다. Openai는 GPT-4.1로 초점을 이동하고 코딩 및 비용 효율성을 우선시합니다. Apr 16, 2025 am 11:37 AM

릴리스에는 GPT-4.1, GPT-4.1 MINI 및 GPT-4.1 NANO의 세 가지 모델이 포함되어 있으며, 대형 언어 모델 환경 내에서 작업 별 최적화로 이동합니다. 이 모델은 사용자를 향한 인터페이스를 즉시 대체하지 않습니다

ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법 ADHD 게임, 건강 도구 및 AI 챗봇이 글로벌 건강을 변화시키는 방법 Apr 14, 2025 am 11:27 AM

비디오 게임이 불안을 완화하거나 집중하거나 ADHD를 가진 어린이를 지원할 수 있습니까? 건강 관리 도전이 전 세계적으로 급증함에 따라, 특히 청소년들 사이에서 혁신가들은 비디오 게임 인 가능성이없는 도구로 전환하고 있습니다. 이제 세계 최대의 엔터테인먼트 인더스 중 하나입니다

See all articles