Au-delà des LLM : voici pourquoi les petits modèles de langage sont l'avenir de l'IA-IA-php.cn

De grandes entreprises comme Open AI, Google, Microsoft et Meta investissent dans les SLM.
Les SLM gagnent en popularité dans l’industrie et sont mieux positionnés en tant que future IA.
Des exemples de SLM incluent Google Nano, le Phi-3 de Microsoft et le GPT-4o mini d'Open AI.

Les grands modèles de langage (LLM) sont entrés en scène avec la sortie de ChatGPT d'Open AI. Depuis, plusieurs entreprises ont également lancé leurs LLM, mais de plus en plus d'entreprises se tournent désormais vers les petits modèles de langage (SLM).

Les SLM prennent de l'ampleur, mais que sont-ils et en quoi diffèrent-ils des LLM ?

Qu'est-ce qu'un petit modèle de langage ?

Un petit modèle de langage (SLM) est un type de modèle d'intelligence artificielle avec moins de paramètres (considérez cela comme une valeur dans le modèle appris lors de la formation). Comme leurs homologues plus grands, les SLM peuvent générer du texte et effectuer d'autres tâches. Cependant, les SLM utilisent moins d'ensembles de données pour la formation, ont moins de paramètres et nécessitent moins de puissance de calcul pour s'entraîner et s'exécuter.

Les SLM se concentrent sur les fonctionnalités clés et leur faible encombrement signifie qu'ils peuvent être déployés sur différents appareils, y compris ceux qui ne disposent pas de matériel haut de gamme comme les appareils mobiles. Par exemple, le Nano de Google est un SLM intégré entièrement conçu et fonctionnant sur les appareils mobiles. En raison de sa petite taille, Nano peut fonctionner localement avec ou sans connectivité réseau, selon l'entreprise.

small language model gemini nano use examples — Google

En plus de Nano, il existe bien d'autres SLM d'entreprises leaders et émergentes dans le domaine de l'IA. Certains SLM populaires incluent le Phi-3 de Microsoft, le GPT-4o mini d'OpenAI, le Claude 3 Haiku d'Anthropic, le Llama 3 de Meta et le Mixtral 8x7B de Mistral AI.

D'autres options sont également disponibles, que vous pourriez penser être des LLM, mais qui le sont. SLM. Cela est particulièrement vrai si l'on considère que la plupart des entreprises adoptent une approche multimodèle consistant à publier plusieurs modèles de langage dans leur portefeuille, proposant à la fois des LLM et des SLM. Un exemple est GPT-4, qui propose différents modèles, dont GPT-4, GPT-4o (Omni) et GPT-4o mini.

Petits modèles de langage et grands modèles de langage

Lorsque nous discutons des SLM, nous ne pouvons pas ignorer leurs grands homologues : les LLM. La clé différence entre un SLM et un LLM est la taille du modèle, qui est mesurée en termes de paramètres.

Au moment d'écrire ces lignes, il n'y a pas de consensus dans l'industrie de l'IA sur le nombre maximum de paramètres qu'un modèle ne doit pas dépasser pour être considéré comme un SLM ou le nombre minimum requis pour être considéré comme un LLM. Cependant, les SLM ont généralement quelques millions à quelques milliards de paramètres, tandis que les LLM en ont plus, allant jusqu'à des milliards.

Par exemple, GPT-3, qui a été publié en 2020, a 175 milliards de paramètres (et le Selon les rumeurs, le modèle GPT-4 en compterait environ 1,76 billion), tandis que les Phi-3-mini, Phi-3-small et Phi-3-small 2024 de Microsoft Les SLM Phi-3-medium mesurent respectivement 3,8, 7 et 14 milliards de paramètres.

small language models versus large language models chart — Microsoft

Un autre facteur de différenciation entre les SLM et les LLM est la quantité de données utilisées pour la formation. Les SLM sont formés sur de plus petites quantités de données, tandis que les LLM utilisent de grands ensembles de données. Cette différence affecte également la capacité du modèle à résoudre des tâches complexes.

En raison des données volumineuses utilisées dans la formation, les LLM sont mieux adaptés à la résolution de différents types de tâches complexes qui nécessitent un raisonnement avancé, tandis que les SLM sont mieux adaptés à des tâches plus simples. tâches. Contrairement aux LLM, les SLM utilisent moins de données de formation, mais les données utilisées doivent être de meilleure qualité pour obtenir de nombreuses fonctionnalités des LLM dans un petit package.

Pourquoi les petits modèles linguistiques sont l'avenir

Pour la plupart des cas d'utilisation, les SLM sont mieux placés pour devenir les modèles courants utilisés par les entreprises et les consommateurs pour effectuer une grande variété de tâches. Bien sûr, les LLM ont leurs avantages et sont plus adaptés à certains cas d'utilisation, comme la résolution de tâches complexes. Cependant, les SLM sont l'avenir pour la plupart des cas d'utilisation pour les raisons suivantes.

1. Coûts de formation et de maintenance inférieurs

server raid configurations feature — Timofeev Vladimir/Shutterstock

Les SLM ont besoin de moins de données pour la formation que les LLM, ce qui en fait l'option la plus viable pour les particuliers et les petites et moyennes entreprises disposant de données de formation, de finances ou des deux limitées. Les LLM nécessitent de grandes quantités de données de formation et, par extension, d'énormes ressources informatiques pour s'entraîner et s'exécuter.

Pour mettre cela en perspective, le PDG d'OpenAI, Sam Altman, a confirmé qu'il leur a fallu plus de 100 millions de dollars pour se former. GPT-4 en parlant lors d'un événement au MIT (selon Wired). Un autre exemple est le LLM OPT-175B de Meta. Meta dit qu'il a été formé à l'aide de 992 GPU NVIDIA A100 de 80 Go, qui coûtent environ 10 000 $ par unité, selon CNBC. Cela porte le coût à environ 9 millions de dollars, sans inclure d'autres dépenses comme l'énergie, les salaires, etc.

Avec de tels chiffres, il n'est pas viable pour les petites et moyennes entreprises de former un LLM. En revanche, les SLM ont une barrière à l’entrée plus faible en termes de ressources et coûtent moins cher à gérer, et ainsi, davantage d’entreprises les adopteront.

2. Meilleures performances

A person talking to their phone with the ChatGPT icon hovering over the screen. — GBJSTOCK / Shutterstock

La performance est un autre domaine dans lequel les SLM battent les LLM en raison de leur taille compacte. Les SLM ont moins de latence et sont plus adaptés aux scénarios où des réponses plus rapides sont nécessaires, comme dans les applications en temps réel. Par exemple, une réponse plus rapide est préférable dans les systèmes de réponse vocale tels que les assistants numériques.

L'exécution sur l'appareil (nous en parlerons plus tard) signifie également que votre demande n'a pas besoin d'effectuer un déplacement vers des serveurs en ligne et de revenir à répondez à votre requête, ce qui conduit à des réponses plus rapides.

3. Plus précis

ZinetroN / Shutterstock

En matière d'IA générative, une chose reste constante : les déchets entrent, les déchets sortent. Les LLM actuels ont été formés à l’aide de grands ensembles de données Internet brutes. Ainsi, ils pourraient ne pas être précis dans toutes les situations. C'est l'un des problèmes de ChatGPT et des modèles similaires et c'est pourquoi vous ne devriez pas faire confiance à tout ce que dit un chatbot IA. D'un autre côté, les SLM sont formés à l'aide de données de meilleure qualité que les LLM et ont donc une plus grande précision.

Les SLM peuvent également être affinés davantage avec une formation ciblée sur des tâches ou des domaines spécifiques, conduisant à une meilleure précision dans ces domaines. zones par rapport aux modèles plus grands et plus généralisés.

4. Peut fonctionner sur l'appareil

small language model mockup on smartphone — Pete Hansen/Shutterstock

Les SLM nécessitent moins de puissance de calcul que les LLM et sont donc idéaux pour les cas d'informatique de pointe. Ils peuvent être déployés sur des appareils de pointe tels que les smartphones et les véhicules autonomes, qui ne disposent pas d'une grande puissance de calcul ou de ressources. Le modèle Nano de Google peut s'exécuter sur l'appareil, ce qui lui permet de fonctionner même lorsque vous ne disposez pas d'une connexion Internet active.

Cette capacité présente une situation gagnant-gagnant pour les entreprises et les consommateurs. Premièrement, c'est une victoire pour la confidentialité, car les données des utilisateurs sont traitées localement plutôt que envoyées vers le cloud, ce qui est important car de plus en plus d'IA sont intégrées dans nos smartphones, contenant presque tous les détails nous concernant. C'est également une victoire pour les entreprises, car elles n'ont pas besoin de déployer et d'exécuter de gros serveurs pour gérer les tâches d'IA.

Les SLM prennent de l'ampleur, avec les plus grands acteurs du secteur, tels qu'Open AI, Google, Microsoft, Anthropic et Meta, publiant de tels modèles. Ces modèles sont plus adaptés aux tâches plus simples, ce pour quoi la plupart d’entre nous utilisent les LLM ; par conséquent, ils sont l'avenir.

Mais les LLM ne mèneront nulle part. Au lieu de cela, ils seront utilisés pour des applications avancées qui combinent des informations provenant de différents domaines pour créer quelque chose de nouveau, comme dans la recherche médicale.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055612 ne parvient pas à s'installer dans Windows 10?

4 Il y a quelques semaines By DDD

<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

3 Il y a quelques semaines By DDD

Nordhold: Système de fusion, expliqué

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Java

1672

Tutoriel CakePHP

1428

Tutoriel Laravel

1332

Tutoriel PHP

1276

Tutoriel C#

1256

Afficher plus

Related knowledge

Comment construire des agents d'IA multimodaux à l'aide d'AGNO Framework? Apr 23, 2025 am 11:30 AM

Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

Comment ajouter une colonne dans SQL? - Analytique Vidhya Apr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilité Apr 16, 2025 am 11:37 AM

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

Nouveau cours court sur les modèles d'intégration par Andrew Ng Apr 15, 2025 am 11:32 AM

Déverrouiller la puissance des modèles d'intégration: une plongée profonde dans le nouveau cours d'Andrew Ng Imaginez un avenir où les machines comprennent et répondent à vos questions avec une précision parfaite. Ce n'est pas de la science-fiction; Grâce aux progrès de l'IA, cela devient un R

Simulation et analyse de lancement de fusées à l'aide de Rocketpy - Analytics Vidhya Apr 19, 2025 am 11:12 AM

Simuler les lancements de fusée avec Rocketpy: un guide complet Cet article vous guide à travers la simulation des lancements de fusées haute puissance à l'aide de Rocketpy, une puissante bibliothèque Python. Nous couvrirons tout, de la définition de composants de fusée à l'analyse de Simula

Google dévoile la stratégie d'agent la plus complète au cloud prochain 2025 Apr 15, 2025 am 11:14 AM

Gemini comme fondement de la stratégie d'IA de Google Gemini est la pierre angulaire de la stratégie d'agent AI de Google, tirant parti de ses capacités multimodales avancées pour traiter et générer des réponses à travers le texte, les images, l'audio, la vidéo et le code. Développé par Deepm

Robots humanoïdes open source que vous pouvez imprimer vous-même: les câlins de visage achètent la robotique du pollen Apr 15, 2025 am 11:25 AM

"Super heureux d'annoncer que nous acquérons une robotique de pollen pour amener les robots open source au monde", a déclaré Hugging Face sur X. "Depuis que Remi Cadene nous a rejoints de Tesla, nous sommes devenus la plate-forme logicielle la plus utilisée pour la robotique ouverte grâce à des remerciements grâce à des remerciements grâce à des remerciements à une robotique ouverte grâce à des remerciements à des remerciements à des remerciements à la robotique ouverte grâce à des remerciements à Gérom

Deepcoder-14b: la compétition open source à O3-MinI et O1 Apr 26, 2025 am 09:07 AM

Dans un développement significatif pour la communauté de l'IA, Agetica et ensemble AI ont publié un modèle de codage d'IA open source nommé Deepcoder-14b. Offrir des capacités de génération de code à égalité avec des concurrents à source fermée comme OpenAI

See all articles