Maison Périphériques technologiques IA Tutoriel DBRICKS DBRX: un guide étape par étape

Tutoriel DBRICKS DBRX: un guide étape par étape

Mar 07, 2025 am 09:46 AM

Databricks dévoile DBRX: un modèle grand langage à haute performance et open source

DATABRICKS a lancé DBRX, un modèle de grande langue (LLM) révolutionnaire, construit sur une architecture sophistiquée de mélange de mixages (MOE). Contrairement aux LLM traditionnelles qui reposent sur un seul réseau neuronal, DBRX utilise plusieurs réseaux "experts" spécialisés, chacun optimisé pour des tâches et des types de données spécifiques. Cette approche innovante conduit à des performances et à une efficacité supérieures par rapport à des modèles comme GPT-3.5 et LLAMA 2. DBRX possède un score de 73,7% dans les références de compréhension du langage, dépassant 69,8% de Llama 2. Cet article plonge sur les capacités, l'architecture et l'utilisation de DBRX.

Comprendre Databricks DBRX

DBRX exploite une architecture de décodeur basée sur un transformateur, formé à l'aide de prédiction à tarker suivant. Son innovation principale réside dans son architecture MOE à grain fin. Ces «experts» sont des agents LLM spécialisés, améliorés avec des connaissances spécifiques au domaine et des capacités de raisonnement avancées. DBRX utilise 16 petits experts, sélectionnant un sous-ensemble de 4 pour chaque entrée. Cette approche à grains fins, avec 65 fois plus de combinaisons d'experts que des modèles comme Mixtral et Grok-1, améliore considérablement la qualité du modèle.

Les fonctionnalités clés de DBRX incluent:

  1. Taille des paramètres: Un total de 132 milliards de paramètres, avec 36 milliards actifs pour une entrée donnée.
  2. Données de formation: pré-formées sur 12 billions de jetons massifs de données méticuleusement organisées, offrant au moins le double de l'efficacité de jeton pour le coup des ensembles de données utilisés pour les modèles MPT. Une durée de contexte de 32 000 jetons est prise en charge.

Méthodologie de formation DBRX

La formation de DBRX

DBRX impliquait un programme d'études soigneusement conçu et des ajustements de mélange de données stratégiques pour optimiser les performances entre diverses entrées. Les outils puissants de Databricks à effet de levier, notamment Apache Spark, Notebooks Databricks et Catalog Unity. Les technologies clés utilisées pendant la pré-formation comprennent les encodages de position rotative (corde), les unités linéaires fermées (GLU), l'attention de la requête groupée (GQA) et le tokenizer GPT-4 du référentiel Tiktoken.

Benchmarking DBRX contre les concurrents

Databricks met en évidence l'efficacité et les performances supérieures de DBRX par rapport aux principaux LLMS open-source:

Model Comparison General Knowledge Commonsense Reasoning Databricks Gauntlet Programming Reasoning Mathematical Reasoning
DBRX vs LLaMA2-70B 9.8% 3.1% 14% 37.9% 40.2%
DBRX vs Mixtral Instruct 2.3% 1.4% 6.1% 15.3% 5.8%
DBRX vs Grok-1 0.7% N/A N/A 6.9% 4%
DBRX vs Mixtral Base 1.8% 2.5% 10% 29.9% N/A

(Un graphique visualisant certains de ces résultats serait inclus ici. URL de l'image: [Databricks DBRX Tutorial: A Step-by-Step Guide ] )

en utilisant dbrx: un guide pratique

Avant d'utiliser DBRX, assurez-vous que votre système a au moins 320 Go de RAM. Suivez ces étapes:

  1. Installation: Installez la bibliothèque transformers: pip install "transformers>=4.40.0"
  2. Token d'accès: Obtenez un jeton d'accès au visage étreint avec des autorisations de lecture.
  3. Chargement du modèle: Utilisez le code suivant (remplacer hf_YOUR_TOKEN par votre jeton):
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN")
model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN")

input_text = "Databricks was founded in "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
Copier après la connexion

dbrx excelle dans diverses tâches, notamment l'achèvement du texte, la compréhension du langage, l'optimisation des requêtes, la génération de code, l'explication, le débogage et l'identification de la vulnérabilité.

(Une image présentant DBRX répondant à une commande simple serait incluse ici. URL d'image: [Databricks DBRX Tutorial: A Step-by-Step Guide ] )

Dbrx fin du réglage fin

DBRX à réglage fin est possible à l'aide de la fonderie LLM Open-source de GitHub. Les exemples de formation doivent être formatés en tant que dictionnaires: {'prompt': <prompt_text>, 'response': <response_text>}</response_text></prompt_text>. La fonderie prend en charge le réglage fin avec des ensembles de données du Hub Face Hub, des ensembles de données locaux et du format StreamingDataset (.MDS). Des instructions détaillées pour chaque méthode sont disponibles dans l'article d'origine. (De plus amples détails sur les fichiers de configuration YAML pour le réglage fin sont omis pour la concision).

Conclusion

DATABRICKS DBRX représente une progression importante dans la technologie LLM, tirant parti de son architecture MOE innovante pour une vitesse, une rentabilité et des performances améliorées. Sa nature open source favorise les développement et les contributions communautaires.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

<🎜>: Grow A Garden - Guide de mutation complet
3 Il y a quelques semaines By DDD
<🎜>: Bubble Gum Simulator Infinity - Comment obtenir et utiliser les clés royales
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Whispers of the Witch Tree - Comment déverrouiller le grappin
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Système de fusion, expliqué
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1667
14
Tutoriel PHP
1273
29
Tutoriel C#
1255
24
10 extensions de codage générateur AI dans le code vs que vous devez explorer 10 extensions de codage générateur AI dans le code vs que vous devez explorer Apr 13, 2025 am 01:14 AM

Hé là, codant ninja! Quelles tâches liées au codage avez-vous prévues pour la journée? Avant de plonger plus loin dans ce blog, je veux que vous réfléchissiez à tous vos malheurs liés au codage - les énumérez. Fait? - Let & # 8217

GPT-4O VS OpenAI O1: Le nouveau modèle Openai vaut-il le battage médiatique? GPT-4O VS OpenAI O1: Le nouveau modèle Openai vaut-il le battage médiatique? Apr 13, 2025 am 10:18 AM

Introduction Openai a publié son nouveau modèle basé sur l'architecture «aux fraises» très attendue. Ce modèle innovant, connu sous le nom d'O1, améliore les capacités de raisonnement, lui permettant de réfléchir à des problèmes Mor

PIXTRAL-12B: Mistral AI & # 039; s Modèle multimodal - Analytics Vidhya PIXTRAL-12B: Mistral AI & # 039; s Modèle multimodal - Analytics Vidhya Apr 13, 2025 am 11:20 AM

Introduction Mistral a publié son tout premier modèle multimodal, à savoir le pixtral-12b-2409. Ce modèle est construit sur les 12 milliards de paramètres de Mistral, Nemo 12b. Qu'est-ce qui distingue ce modèle? Il peut maintenant prendre les deux images et Tex

Comment ajouter une colonne dans SQL? - Analytique Vidhya Comment ajouter une colonne dans SQL? - Analytique Vidhya Apr 17, 2025 am 11:43 AM

Instruction ALTER TABLE de SQL: Ajout de colonnes dynamiquement à votre base de données Dans la gestion des données, l'adaptabilité de SQL est cruciale. Besoin d'ajuster votre structure de base de données à la volée? L'énoncé de la table alter est votre solution. Ce guide détaille l'ajout de Colu

Comment construire des agents d'IA multimodaux à l'aide d'AGNO Framework? Comment construire des agents d'IA multimodaux à l'aide d'AGNO Framework? Apr 23, 2025 am 11:30 AM

Tout en travaillant sur une IA agentique, les développeurs se retrouvent souvent à naviguer dans les compromis entre la vitesse, la flexibilité et l'efficacité des ressources. J'ai exploré le cadre de l'IA agentique et je suis tombé sur Agno (plus tôt c'était Phi-

Au-delà du drame de lama: 4 nouvelles références pour les modèles de grande langue Au-delà du drame de lama: 4 nouvelles références pour les modèles de grande langue Apr 14, 2025 am 11:09 AM

Benchmarks en difficulté: une étude de cas de lama Début avril 2025, Meta a dévoilé sa suite de modèles Llama 4, avec des métriques de performance impressionnantes qui les ont placés favorablement contre des concurrents comme GPT-4O et Claude 3.5 Sonnet. Au centre du launc

Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilité Openai change de mise au point avec GPT-4.1, priorise le codage et la rentabilité Apr 16, 2025 am 11:37 AM

La version comprend trois modèles distincts, GPT-4.1, GPT-4.1 Mini et GPT-4.1 Nano, signalant une évolution vers des optimisations spécifiques à la tâche dans le paysage du modèle grand langage. Ces modèles ne remplacent pas immédiatement les interfaces orientées utilisateur comme

Comment les jeux de TDAH, les outils de santé et les chatbots d'IA transforment la santé mondiale Comment les jeux de TDAH, les outils de santé et les chatbots d'IA transforment la santé mondiale Apr 14, 2025 am 11:27 AM

Un jeu vidéo peut-il faciliter l'anxiété, se concentrer ou soutenir un enfant atteint de TDAH? Au fur et à mesure que les défis de la santé augmentent à l'échelle mondiale - en particulier chez les jeunes - les innovateurs se tournent vers un outil improbable: les jeux vidéo. Maintenant l'un des plus grands divertissements du monde Indus

See all articles