什么是龙猫缩放定律?
介绍
大型语言模型(LLMS)促进了自然语言处理(NLP)的进步,但它们也提出了一些有关计算效率的重要问题。这些模型已经变得太大了,因此培训和推理成本不再在合理的限制范围内。
为了解决这个问题,Hoffmann等人引入的龙猫缩放定律。 2022年,提供了一个开创性的框架,以优化LLM的培训。 Chinchilla缩放定律提供了一个必要的指南,可以通过在模型大小,培训数据和计算资源之间建立关系来有效地扩展LLM的情况而不损害绩效。我们将在本文中详细讨论它。
概述
- Chinchilla缩放定律通过平衡模型大小和数据量来优化LLM培训,以提高效率。
- 新的扩展见解表明,在接受更多数据培训时,较小的语言模型可以胜过较大的语言模型。
- Chinchilla的方法通过将数据数量优先于模型尺寸来挑战传统的LLM缩放,以提高计算效率。
- Chinchilla缩放法为NLP提供了新的路线图,从而指导了高性能,资源有效的模型的发展。
- Chinchilla缩放定律通过将模型大小和培训数据加倍,从而最大程度地提高语言模型性能,从而最大程度地缩写计算成本。
目录
- 什么是Chinchilla缩放法?
- 焦点转变:从模型大小到数据
- 龙猫缩放定律的概述
- 龙猫缩放定律的主要发现
- 计算最佳训练
- 来自400多个模型的经验证据
- 修订的估计和持续改进
- 龙猫方法的好处
- 提高性能
- 降低计算成本
- 对未来研究和模型开发的影响
- 挑战和考虑因素
- 常见问题
什么是Chinchilla缩放法?
该论文“培训译文最佳的大语言模型”于2022年发表,重点是确定三个关键因素之间的关系:模型大小,代币数量和计算预算。作者发现,现有的大型语言模型(LLMS)如GPT-3(175b参数),Gopher(280b)和Megatron(530b)的训练明显不足。尽管这些模型的大小增加,但训练数据的数量在很大程度上保持恒定,从而导致了次优的性能。作者提出,必须将模型大小和训练令牌的数量平均缩放,以进行最佳训练。为了证明这一点,他们培训了大约400款型号,范围从7,000万到160亿多个参数不等,使用了5到5000亿个令牌。
基于这些发现,作者训练了一种名为Chinchilla的新模型,该模型使用与Gopher(280B)相同的计算预算,但只有70B参数,而培训数据则多四倍。 Chinchilla的表现优于几个著名的LLM,包括Gopher(280b),GPT-3(175b),Jurassic-1(178b)和Megatron(530b)。这一结果与OpenAI在“ LLMS缩放定律”中提出的缩放定律相矛盾,这表明较大的模型总是会更好。 Chinchilla缩放定律表明,经过更多数据培训时,较小的模型可以实现出色的性能。这种方法还使较小的模型更易于微调和减少推理潜伏期。
该图显示,尽管较小,但Chinchilla(70b)遵循不同的计算与参数比率,并且超过了Gopher和GPT-3等较大的模型。
其他方法(1、2和3)探索了基于计算分配优化模型性能的不同方法。
从这个数字中,我们可以看到Chinchilla的优势,即使Chinchilla的尺寸较小(70B参数),它也接受了更大的数据集(1.4万亿代码)的培训,该数据遵循了Chinchilla缩放法律中介绍的原则,如果他们在更大的模型上培训了更大的模型。参数但接受了相对较少的令牌培训,这表明这些模型可能没有完全优化其计算潜力。
焦点转变:从模型大小到数据
从历史上看,提高LLM性能的重点一直在增加模型大小上,如GPT-3和Gopher等模型所示。这是由Kaplan等人的研究驱动的。 (2020),它提出了模型大小和性能之间的幂律关系。但是,随着模型的增长,训练数据的数量并未相应地扩展,从而导致计算潜力不足。 Chinchilla缩放法律通过表明资源的分配更加平衡,尤其是在数据和模型大小方面,可以导致表现更好的模型,这些模型在不达到最低可能的损失的情况下会导致更佳的计算模型。
龙猫缩放定律的概述
模型大小,训练令牌和计算成本之间的权衡是龙猫缩放定律的核心。该法律在这三个参数之间建立了最佳的平衡:
- 模型大小(N) :模型中的参数数量。
- 训练令牌(D) :训练过程中使用的令牌总数。
- 计算成本(c) :分配用于培训的总计算资源,通常以拖台(每秒的浮点操作)进行测量。
Chinchilla缩放定律表明,为了获得最佳性能,模型大小和训练数据的数量都应以相等的速度扩展。具体而言,训练令牌的数量也应为每次加倍模型大小加倍。这种方法对比了早期的方法,该方法强调增加模型大小而没有足够增加训练数据。
这种关系在数学上表示为:
在哪里:
- L是模特的最终损失。
- L_0是不可约的损失,代表了最佳性能。
- 与理想的生成过程相比, A和B是捕获模型表现不佳的常数。
- α和β是描述损失对模型大小和数据大小的尺度的指数。
龙猫缩放定律的主要发现
以下是龙猫鳞片定律的主要发现:
计算最佳训练
龙猫缩放定律突出显示了模型大小和训练数据量之间的最佳平衡。具体而言,研究发现,每个模型参数的20个训练令牌的大约比率非常适合通过给定的计算预算实现最佳性能。例如,具有700亿参数的龙猫模型接受了1.4万亿代币的训练,比Gopher多四倍,但参数却少得多。这种平衡导致模型在几个基准上的表现明显优于较大的模型。
来自400多个模型的经验证据
为了得出龙猫缩放定律,Hoffmann等人。培训了400多个变压器型号,大小从7,000万到160亿个参数不等,在多达5000亿个代币的数据集上。经验证据强烈支持以下假设:经过更多数据(以固定的计算预算)训练的模型比单独增加模型大小要好。
修订的估计和持续改进
随后的研究试图完善Hoffmann等人的初始发现,从而确定参数估计值的可能调整。一些研究提出了原始结果中的较小不一致,并提出了修订的估计值,以更好地适合观察到的数据。这些调整表明需要进一步的研究以了解模型缩放的动态,但是《龙猫缩放定律》的核心见解仍然是宝贵的指南。
龙猫方法的好处
这是龙猫方法的好处:
提高性能
Chinchilla的模型大小和训练数据相等的缩放得出了显着的结果。尽管比许多其他大型模型都小,但在各种基准上,Chinchilla的表现都优于GPT-3,Gopher,甚至大量的超源性NLG模型(5300亿个参数)。例如,在大量的多任务语言理解(MMLU)基准上,奇奇拉的平均准确性为67.5%,比Gopher的60%显着提高。
降低计算成本
Chinchilla方法优化了性能,并降低了训练和推理的计算和能源成本。诸如GPT-3和Gopher之类的培训模型需要巨大的计算资源,使它们在现实世界中的应用非常昂贵。相比之下,Chinchilla的型号较小和更广泛的培训数据导致对微调和推理的计算要求较低,从而使其在下游应用程序中更容易访问。
对未来研究和模型开发的影响
《龙猫缩放法》为LLM开发的未来提供了宝贵的见解。关键含义包括:
- 指导模型设计:了解如何平衡模型大小和培训数据,使研究人员和开发人员在设计新模型时可以做出更明智的决策。通过遵守《龙猫缩放定律》中概述的原则,开发人员可以确保其模型既计算效率高且表现高。
- 指导模型设计:有关优化音量的知识,因此培训数据为模型的研究和设计提供了信息。在此指南量表中,他们的想法的发展将在高效率的广泛定义中运作,而不会过多地消费计算机资源。
- 性能优化:龙猫缩放定律提供了优化LLM的路线图。通过专注于相等的规模,开发人员可以避免训练不足的大型模型的陷阱,并确保对训练和推理任务进行优化模型。
- 丹丘(Chinchilla)以外的探索:随着研究的继续,新的策略正在发展,以扩大龙猫缩放法的思想。例如,一些研究人员正在研究以更少的计算资源来达到相似性能水平的方法,或者进一步增强数据约束环境中的模型性能。这些探索可能会导致更有效的培训管道。
挑战和考虑因素
尽管《龙猫缩放法》标志着了解LLM扩展的重要一步,但它也提出了新的问题和挑战:
- 数据收集:就像龙猫一样,训练1.4万亿代币的模型意味着许多高质量数据集的可用性。但是,这样的数据收集和处理规模为研究人员和开发人员以及伦理问题(例如隐私和偏见)提出了组织问题。
- 偏见和毒性:但是,使用龙猫缩放定律训练的模型的定期偏差和毒性比例降低比所有这些效率低下问题更容易,更有效。随着LLM的权力和覆盖范围的增长,确保公平和减轻有害产出将是未来研究的关键领域。
结论
龙猫的缩放定律代表了我们对优化大型语言模型培训的理解的关键进步。通过在模型大小,培训数据和计算成本之间建立明确的关系,该法律为有效扩展LLM的计算最佳框架提供了最佳的框架。 Chinchilla模型的成功证明了这种方法在绩效和资源效率方面的实际好处。
随着该领域的研究继续,龙猫缩放法的原理可能会影响LLM开发的未来,从而指导模型的设计,这些模型在维持可持续性和可及性的同时,推动了自然语言处理的边界。
另外,如果您正在在线寻找生成AI课程,请探索:Genai Pinnacle程序!
常见问题
Q1。什么是龙猫缩放定律?Ans。 Chinchilla缩放定律是一个经验框架,描述了语言模型的大小(参数数),培训数据的量(令牌)和培训所需的计算资源之间的最佳关系。它旨在最大程度地减少培训计算,同时最大程度地提高模型性能。
Q2。 Chinchilla缩放定律的关键参数是什么? Ans。关键参数包括:
1。N:模型中的参数数。
2。D:培训令牌的数量。
3。C:拖船中的总计算成本。
4。L:模型在测试数据集上实现的平均损失。
5。A和B:与理想生成过程相比,反映表现不佳的常数。
6。α和β:指数分别描述损失量表的模型和数据大小。
Ans。该法律表明,模型大小和训练令牌应以相等的速度扩展以达到最佳性能。具体而言,对于型号尺寸的每次加倍,训练令牌的数量也应加倍,通常旨在每个参数的比例约为20个令牌。
Q4。龙猫缩放定律有哪些批评或局限性?Ans。最近的研究表明,Hoffmann等人的原始估计值可能存在潜在的问题,包括报告的数据和过度置信区间的不一致。一些研究人员认为,扩展法可能过于简单,并且在模型培训中没有考虑各种实际考虑。
Q5。龙猫缩放法如何影响最近的语言模型开发?Ans。 《龙猫缩放法》的发现为包括Google的Gemini Suite在内的几个著名模型的设计和培训过程提供了信息。它还促使人们讨论了“超越龙猫”策略的讨论,研究人员根据原始缩放法探索了大于最佳的培训模型。
以上是什么是龙猫缩放定律?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Meta的Llama 3.2:多模式和移动AI的飞跃 Meta最近公布了Llama 3.2,这是AI的重大进步,具有强大的视觉功能和针对移动设备优化的轻量级文本模型。 以成功为基础

嘿,编码忍者!您当天计划哪些与编码有关的任务?在您进一步研究此博客之前,我希望您考虑所有与编码相关的困境,这是将其列出的。 完毕? - 让&#8217

本周的AI景观:进步,道德考虑和监管辩论的旋风。 OpenAI,Google,Meta和Microsoft等主要参与者已经释放了一系列更新,从开创性的新车型到LE的关键转变

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

介绍 Openai已根据备受期待的“草莓”建筑发布了其新模型。这种称为O1的创新模型增强了推理能力,使其可以通过问题进行思考

介绍 想象一下,穿过美术馆,周围是生动的绘画和雕塑。现在,如果您可以向每一部分提出一个问题并获得有意义的答案,该怎么办?您可能会问:“您在讲什么故事?

SQL的Alter表语句:动态地将列添加到数据库 在数据管理中,SQL的适应性至关重要。 需要即时调整数据库结构吗? Alter表语句是您的解决方案。本指南的详细信息添加了Colu

斯坦福大学以人为本人工智能研究所发布的《2025年人工智能指数报告》对正在进行的人工智能革命进行了很好的概述。让我们用四个简单的概念来解读它:认知(了解正在发生的事情)、欣赏(看到好处)、接纳(面对挑战)和责任(弄清我们的责任)。 认知:人工智能无处不在,并且发展迅速 我们需要敏锐地意识到人工智能发展和传播的速度有多快。人工智能系统正在不断改进,在数学和复杂思维测试中取得了优异的成绩,而就在一年前,它们还在这些测试中惨败。想象一下,人工智能解决复杂的编码问题或研究生水平的科学问题——自2023年
