什么是龙猫缩放定律？-人工智能-PHP中文网

该论文“培训译文最佳的大语言模型”于2022年发表，重点是确定三个关键因素之间的关系：模型大小，代币数量和计算预算。作者发现，现有的大型语言模型（LLMS）如GPT-3（175b参数），Gopher（280b）和Megatron（530b）的训练明显不足。尽管这些模型的大小增加，但训练数据的数量在很大程度上保持恒定，从而导致了次优的性能。作者提出，必须将模型大小和训练令牌的数量平均缩放，以进行最佳训练。为了证明这一点，他们培训了大约400款型号，范围从7,000万到160亿多个参数不等，使用了5到5000亿个令牌。

基于这些发现，作者训练了一种名为Chinchilla的新模型，该模型使用与Gopher（280B）相同的计算预算，但只有70B参数，而培训数据则多四倍。 Chinchilla的表现优于几个著名的LLM，包括Gopher（280b），GPT-3（175b），Jurassic-1（178b）和Megatron（530b）。这一结果与OpenAI在“ LLMS缩放定律”中提出的缩放定律相矛盾，这表明较大的模型总是会更好。 Chinchilla缩放定律表明，经过更多数据培训时，较小的模型可以实现出色的性能。这种方法还使较小的模型更易于微调和减少推理潜伏期。

什么是龙猫缩放定律？

该图显示，尽管较小，但Chinchilla（70b）遵循不同的计算与参数比率，并且超过了Gopher和GPT-3等较大的模型。

其他方法（1、2和3）探索了基于计算分配优化模型性能的不同方法。

什么是龙猫缩放定律？

从这个数字中，我们可以看到Chinchilla的优势，即使Chinchilla的尺寸较小（70B参数），它也接受了更大的数据集（1.4万亿代码）的培训，该数据遵循了Chinchilla缩放法律中介绍的原则，如果他们在更大的模型上培训了更大的模型。参数但接受了相对较少的令牌培训，这表明这些模型可能没有完全优化其计算潜力。

焦点转变：从模型大小到数据

从历史上看，提高LLM性能的重点一直在增加模型大小上，如GPT-3和Gopher等模型所示。这是由Kaplan等人的研究驱动的。（2020），它提出了模型大小和性能之间的幂律关系。但是，随着模型的增长，训练数据的数量并未相应地扩展，从而导致计算潜力不足。 Chinchilla缩放法律通过表明资源的分配更加平衡，尤其是在数据和模型大小方面，可以导致表现更好的模型，这些模型在不达到最低可能的损失的情况下会导致更佳的计算模型。

龙猫缩放定律的概述

模型大小，训练令牌和计算成本之间的权衡是龙猫缩放定律的核心。该法律在这三个参数之间建立了最佳的平衡：

模型大小（N） ：模型中的参数数量。
训练令牌（D） ：训练过程中使用的令牌总数。
计算成本（c） ：分配用于培训的总计算资源，通常以拖台（每秒的浮点操作）进行测量。

Chinchilla缩放定律表明，为了获得最佳性能，模型大小和训练数据的数量都应以相等的速度扩展。具体而言，训练令牌的数量也应为每次加倍模型大小加倍。这种方法对比了早期的方法，该方法强调增加模型大小而没有足够增加训练数据。

这种关系在数学上表示为：

什么是龙猫缩放定律？

在哪里：

L是模特的最终损失。
L_0是不可约的损失，代表了最佳性能。
与理想的生成过程相比， A和B是捕获模型表现不佳的常数。
α和β是描述损失对模型大小和数据大小的尺度的指数。

龙猫缩放定律的主要发现

以下是龙猫鳞片定律的主要发现：

计算最佳训练

龙猫缩放定律突出显示了模型大小和训练数据量之间的最佳平衡。具体而言，研究发现，每个模型参数的20个训练令牌的大约比率非常适合通过给定的计算预算实现最佳性能。例如，具有700亿参数的龙猫模型接受了1.4万亿代币的训练，比Gopher多四倍，但参数却少得多。这种平衡导致模型在几个基准上的表现明显优于较大的模型。

来自400多个模型的经验证据

为了得出龙猫缩放定律，Hoffmann等人。培训了400多个变压器型号，大小从7,000万到160亿个参数不等，在多达5000亿个代币的数据集上。经验证据强烈支持以下假设：经过更多数据（以固定的计算预算）训练的模型比单独增加模型大小要好。

修订的估计和持续改进

随后的研究试图完善Hoffmann等人的初始发现，从而确定参数估计值的可能调整。一些研究提出了原始结果中的较小不一致，并提出了修订的估计值，以更好地适合观察到的数据。这些调整表明需要进一步的研究以了解模型缩放的动态，但是《龙猫缩放定律》的核心见解仍然是宝贵的指南。

龙猫方法的好处

这是龙猫方法的好处：

提高性能

Chinchilla的模型大小和训练数据相等的缩放得出了显着的结果。尽管比许多其他大型模型都小，但在各种基准上，Chinchilla的表现都优于GPT-3，Gopher，甚至大量的超源性NLG模型（5300亿个参数）。例如，在大量的多任务语言理解（MMLU）基准上，奇奇拉的平均准确性为67.5％，比Gopher的60％显着提高。

降低计算成本

Chinchilla方法优化了性能，并降低了训练和推理的计算和能源成本。诸如GPT-3和Gopher之类的培训模型需要巨大的计算资源，使它们在现实世界中的应用非常昂贵。相比之下，Chinchilla的型号较小和更广泛的培训数据导致对微调和推理的计算要求较低，从而使其在下游应用程序中更容易访问。

对未来研究和模型开发的影响

《龙猫缩放法》为LLM开发的未来提供了宝贵的见解。关键含义包括：

指导模型设计：了解如何平衡模型大小和培训数据，使研究人员和开发人员在设计新模型时可以做出更明智的决策。通过遵守《龙猫缩放定律》中概述的原则，开发人员可以确保其模型既计算效率高且表现高。
指导模型设计：有关优化音量的知识，因此培训数据为模型的研究和设计提供了信息。在此指南量表中，他们的想法的发展将在高效率的广泛定义中运作，而不会过多地消费计算机资源。
性能优化：龙猫缩放定律提供了优化LLM的路线图。通过专注于相等的规模，开发人员可以避免训练不足的大型模型的陷阱，并确保对训练和推理任务进行优化模型。
丹丘（Chinchilla）以外的探索：随着研究的继续，新的策略正在发展，以扩大龙猫缩放法的思想。例如，一些研究人员正在研究以更少的计算资源来达到相似性能水平的方法，或者进一步增强数据约束环境中的模型性能。这些探索可能会导致更有效的培训管道。

挑战和考虑因素

尽管《龙猫缩放法》标志着了解LLM扩展的重要一步，但它也提出了新的问题和挑战：

数据收集：就像龙猫一样，训练1.4万亿代币的模型意味着许多高质量数据集的可用性。但是，这样的数据收集和处理规模为研究人员和开发人员以及伦理问题（例如隐私和偏见）提出了组织问题。
偏见和毒性：但是，使用龙猫缩放定律训练的模型的定期偏差和毒性比例降低比所有这些效率低下问题更容易，更有效。随着LLM的权力和覆盖范围的增长，确保公平和减轻有害产出将是未来研究的关键领域。