首页 科技周边 人工智能 Databricks DBRX教程:逐步指南

Databricks DBRX教程:逐步指南

Mar 07, 2025 am 09:46 AM

Databricks 启动了DBRX,这是一种开创性的开源大型语言模型(LLM),建立在精致的Experts(MOE)体系结构上。 与依赖单个神经网络的传统LLM不同,DBRX采用多个专业的“专家”网络,每个网络都针对特定的任务和数据类型进行了优化。与GPT-3.5和Llama 2相比,这种创新的方法可以提高性能和效率。DBRX在语言理解基准方面的得分为73.7%,超过了Llama 2的69.8%。本文深入研究了DBRX的功能,体系结构和用法。

>

理解数据链球dbrx

dbrx利用了基于变压器的纯解码体架构,该体系结构使用下一步的预测进行了训练。它的核心创新在于其精细的Moe建筑。 这些“专家”是专业的LLM代理,具有特定于领域的知识和高级推理功能。 DBRX利用16个较小的专家,为每个输入选择4个子集。这种细粒度的方法是专家组合的65倍,是Mixtral和Grok-1等模型,可显着提高模型质量。 DBRX的关键功能包括:

参数大小:
    总共1320亿个参数,任何给定输入的360亿个活动。
  1. 培训数据:在精心策划的数据的12万亿代币上进行了预训练,至少提供了用于MPT模型的数据集的代币效率的两倍。 支持上下文长度为32,000个令牌。
  2. dbrx训练方法
  3. DBRX的培训涉及精心设计的课程和战略数据混合调整,以优化各种输入的性能。 该过程利用数据助剂的功能强大工具,包括Apache Spark,Databricks笔记本电脑和Unity目录。 预训练期间采用的关键技术包括旋转位置编码(绳索),封闭式线性单元(GLU),分组查询注意(GQA)和Tiktoken存储库中的GPT-4 Tokenizer。

>对竞争对手进行基准测试dbrx 与领先的开源LLM相比,Databricks强调了DBRX的卓越效率和性能:

Model Comparison General Knowledge Commonsense Reasoning Databricks Gauntlet Programming Reasoning Mathematical Reasoning
DBRX vs LLaMA2-70B 9.8% 3.1% 14% 37.9% 40.2%
DBRX vs Mixtral Instruct 2.3% 1.4% 6.1% 15.3% 5.8%
DBRX vs Grok-1 0.7% N/A N/A 6.9% 4%
DBRX vs Mixtral Base 1.8% 2.5% 10% 29.9% N/A

(在此处可视化其中一些结果的图。 Databricks DBRX Tutorial: A Step-by-Step Guide 利用dbrx:实用指南

> 在使用DBRX之前,请确保您的系统至少具有320GB的RAM。 请按照以下步骤:

安装:

>安装
    库:
  1. 访问令牌:transformers>获得带有读取权限的拥抱脸访问令牌。pip install "transformers>=4.40.0"
  2. >
  3. 模型加载:>使用以下代码(用令牌替换):>
  4. DBRX在各种任务中脱颖而出,包括文本完成,语言理解,查询优化,代码生成,说明,调试和脆弱性标识。> hf_YOUR_TOKEN(在此处将包括一个响应简单命令的图像显示dbrx。
>微调dbrx
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN")
model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN")

input_text = "Databricks was founded in "
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")

outputs = model.generate(**input_ids, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))
登录后复制

使用GitHub的开源LLM Foundry,可以进行微调DBRX。 培训示例应格式化为字典:

。 Foundry支持来自拥抱面线,本地数据集和StreamingDataSet(.MDS)格式的数据集进行微调。 每种方法的详细说明可在原始文章中找到。 (对于简洁而言,省略了有关用于微调的YAML配置文件的更多详细信息)。

Databricks DBRX Tutorial: A Step-by-Step Guide 结论

Databricks DBRX代表了LLM技术的重大进步,利用其创新的MOE架构来提高速度,成本效益和性能。 它的开源自然促进了进一步的发展和社区贡献。

以上是Databricks DBRX教程:逐步指南的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1658
14
CakePHP 教程
1415
52
Laravel 教程
1309
25
PHP教程
1257
29
C# 教程
1231
24
开始使用Meta Llama 3.2 -Analytics Vidhya 开始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

10个生成AI编码扩展,在VS代码中,您必须探索 10个生成AI编码扩展,在VS代码中,您必须探索 Apr 13, 2025 am 01:14 AM

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

AV字节:Meta' llama 3.2,Google的双子座1.5等 AV字节:Meta' llama 3.2,Google的双子座1.5等 Apr 11, 2025 pm 12:01 PM

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

向员工出售AI策略:Shopify首席执行官的宣言 向员工出售AI策略:Shopify首席执行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

视觉语言模型(VLMS)的综合指南 视觉语言模型(VLMS)的综合指南 Apr 12, 2025 am 11:58 AM

介绍 想象一下,穿过​​美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? GPT-4O vs OpenAI O1:新的Openai模型值得炒作吗? Apr 13, 2025 am 10:18 AM

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

如何在SQL中添加列? - 分析Vidhya 如何在SQL中添加列? - 分析Vidhya Apr 17, 2025 am 11:43 AM

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

最新的最佳及时工程技术的年度汇编 最新的最佳及时工程技术的年度汇编 Apr 10, 2025 am 11:22 AM

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题

See all articles