Tutoriel DBRICKS DBRX: un guide étape par étape
Databricks dévoile DBRX: un modèle grand langage à haute performance et open source
DATABRICKS a lancé DBRX, un modèle de grande langue (LLM) révolutionnaire, construit sur une architecture sophistiquée de mélange de mixages (MOE). Contrairement aux LLM traditionnelles qui reposent sur un seul réseau neuronal, DBRX utilise plusieurs réseaux "experts" spécialisés, chacun optimisé pour des tâches et des types de données spécifiques. Cette approche innovante conduit à des performances et à une efficacité supérieures par rapport à des modèles comme GPT-3.5 et LLAMA 2. DBRX possède un score de 73,7% dans les références de compréhension du langage, dépassant 69,8% de Llama 2. Cet article plonge sur les capacités, l'architecture et l'utilisation de DBRX.
Comprendre Databricks DBRX
DBRX exploite une architecture de décodeur basée sur un transformateur, formé à l'aide de prédiction à tarker suivant. Son innovation principale réside dans son architecture MOE à grain fin. Ces «experts» sont des agents LLM spécialisés, améliorés avec des connaissances spécifiques au domaine et des capacités de raisonnement avancées. DBRX utilise 16 petits experts, sélectionnant un sous-ensemble de 4 pour chaque entrée. Cette approche à grains fins, avec 65 fois plus de combinaisons d'experts que des modèles comme Mixtral et Grok-1, améliore considérablement la qualité du modèle.
Les fonctionnalités clés de DBRX incluent:
- Taille des paramètres: Un total de 132 milliards de paramètres, avec 36 milliards actifs pour une entrée donnée.
- Données de formation: pré-formées sur 12 billions de jetons massifs de données méticuleusement organisées, offrant au moins le double de l'efficacité de jeton pour le coup des ensembles de données utilisés pour les modèles MPT. Une durée de contexte de 32 000 jetons est prise en charge.
Méthodologie de formation DBRX
La formation de DBRXDBRX impliquait un programme d'études soigneusement conçu et des ajustements de mélange de données stratégiques pour optimiser les performances entre diverses entrées. Les outils puissants de Databricks à effet de levier, notamment Apache Spark, Notebooks Databricks et Catalog Unity. Les technologies clés utilisées pendant la pré-formation comprennent les encodages de position rotative (corde), les unités linéaires fermées (GLU), l'attention de la requête groupée (GQA) et le tokenizer GPT-4 du référentiel Tiktoken.
Benchmarking DBRX contre les concurrents
Databricks met en évidence l'efficacité et les performances supérieures de DBRX par rapport aux principaux LLMS open-source:
Model Comparison | General Knowledge | Commonsense Reasoning | Databricks Gauntlet | Programming Reasoning | Mathematical Reasoning |
---|---|---|---|---|---|
DBRX vs LLaMA2-70B | 9.8% | 3.1% | 14% | 37.9% | 40.2% |
DBRX vs Mixtral Instruct | 2.3% | 1.4% | 6.1% | 15.3% | 5.8% |
DBRX vs Grok-1 | 0.7% | N/A | N/A | 6.9% | 4% |
DBRX vs Mixtral Base | 1.8% | 2.5% | 10% | 29.9% | N/A |
(Un graphique visualisant certains de ces résultats serait inclus ici. URL de l'image: [] )
en utilisant dbrx: un guide pratique
Avant d'utiliser DBRX, assurez-vous que votre système a au moins 320 Go de RAM. Suivez ces étapes:
- Installation: Installez la bibliothèque
transformers
:pip install "transformers>=4.40.0"
- Token d'accès: Obtenez un jeton d'accès au visage étreint avec des autorisations de lecture.
- Chargement du modèle: Utilisez le code suivant (remplacer
hf_YOUR_TOKEN
par votre jeton):
from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN") model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN") input_text = "Databricks was founded in " input_ids = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**input_ids, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
dbrx excelle dans diverses tâches, notamment l'achèvement du texte, la compréhension du langage, l'optimisation des requêtes, la génération de code, l'explication, le débogage et l'identification de la vulnérabilité.
(Une image présentant DBRX répondant à une commande simple serait incluse ici. URL d'image: [] )
Dbrx fin du réglage fin
DBRX à réglage fin est possible à l'aide de la fonderie LLM Open-source de GitHub. Les exemples de formation doivent être formatés en tant que dictionnaires: {'prompt': <prompt_text>, 'response': <response_text>}</response_text></prompt_text>
. La fonderie prend en charge le réglage fin avec des ensembles de données du Hub Face Hub, des ensembles de données locaux et du format StreamingDataset (.MDS). Des instructions détaillées pour chaque méthode sont disponibles dans l'article d'origine. (De plus amples détails sur les fichiers de configuration YAML pour le réglage fin sont omis pour la concision).
Conclusion
DATABRICKS DBRX représente une progression importante dans la technologie LLM, tirant parti de son architecture MOE innovante pour une vitesse, une rentabilité et des performances améliorées. Sa nature open source favorise les développement et les contributions communautaires.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds











Hé là, codant ninja! Quelles tâches liées au codage avez-vous prévues pour la journée? Avant de plonger plus loin dans ce blog, je veux que vous réfléchissiez à tous vos malheurs liés au codage - les énumérez. Fait? - Let & # 8217

Introduction Openai a publié son nouveau modèle basé sur l'architecture «aux fraises» très attendue. Ce modèle innovant, connu sous le nom d'O1, améliore les capacités de raisonnement, lui permettant de réfléchir à des problèmes Mor

Introduction Mistral a publié son tout premier modèle multimodal, à savoir le pixtral-12b-2409. Ce modèle est construit sur les 12 milliards de paramètres de Mistral, Nemo 12b. Qu'est-ce qui distingue ce modèle? Il peut maintenant prendre les deux images et Tex

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

Benchmarks en difficulté: une étude de cas de lama Début avril 2025, Meta a dévoilé sa suite de modèles Llama 4, avec des métriques de performance impressionnantes qui les ont placés favorablement contre des concurrents comme GPT-4O et Claude 3.5 Sonnet. Au centre du launc

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

Un jeu vidéo peut-il faciliter l'anxiété, se concentrer ou soutenir un enfant atteint de TDAH? Au fur et à mesure que les défis de la santé augmentent à l'échelle mondiale - en particulier chez les jeunes - les innovateurs se tournent vers un outil improbable: les jeux vidéo. Maintenant l'un des plus grands divertissements du monde Indus
