什麼是龍貓縮放定律？-人工智慧-PHP中文網

該論文“培訓譯文最佳的大語言模型”於2022年發表，重點是確定三個關鍵因素之間的關係：模型大小，代幣數量和計算預算。作者發現，現有的大型語言模型（LLMS）如GPT-3（175b參數），Gopher（280b）和Megatron（530b）的訓練明顯不足。儘管這些模型的大小增加，但訓練數據的數量在很大程度上保持恆定，從而導致了次優的性能。作者提出，必須將模型大小和訓練令牌的數量平均縮放，以進行最佳訓練。為了證明這一點，他們培訓了大約400款型號，範圍從7,000萬到160億多個參數不等，使用了5到5000億個令牌。

基於這些發現，作者訓練了一種名為Chinchilla的新模型，該模型使用與Gopher（280B）相同的計算預算，但只有70B參數，而培訓數據則多四倍。 Chinchilla的表現優於幾個著名的LLM，包括Gopher（280b），GPT-3（175b），Jurassic-1（178b）和Megatron（530b）。這一結果與OpenAI在“ LLMS縮放定律”中提出的縮放定律相矛盾，這表明較大的模型總是會更好。 Chinchilla縮放定律表明，經過更多數據培訓時，較小的模型可以實現出色的性能。這種方法還使較小的模型更易於微調和減少推理潛伏期。

什麼是龍貓縮放定律？

該圖顯示，儘管較小，但Chinchilla（70b）遵循不同的計算與參數比率，並且超過了Gopher和GPT-3等較大的模型。

其他方法（1、2和3）探索了基於計算分配優化模型性能的不同方法。

什麼是龍貓縮放定律？

從這個數字中，我們可以看到Chinchilla的優勢，即使Chinchilla的尺寸較小（70B參數），它也接受了更大的數據集（1.4萬億代碼）的培訓，該數據遵循了Chinchilla縮放法律中介紹的原則，如果他們在更大的模型上培訓了更大的模型。參數但接受了相對較少的令牌培訓，這表明這些模型可能沒有完全優化其計算潛力。

焦點轉變：從模型大小到數據

從歷史上看，提高LLM性能的重點一直在增加模型大小上，如GPT-3和Gopher等模型所示。這是由Kaplan等人的研究驅動的。（2020），它提出了模型大小和性能之間的冪律關係。但是，隨著模型的增長，訓練數據的數量並未相應地擴展，從而導致計算潛力不足。 Chinchilla縮放法律通過表明資源的分配更加平衡，尤其是在數據和模型大小方面，可以導致表現更好的模型，這些模型在不達到最低可能的損失的情況下會導致更佳的計算模型。

龍貓縮放定律的概述

模型大小，訓練令牌和計算成本之間的權衡是龍貓縮放定律的核心。該法律在這三個參數之間建立了最佳的平衡：

模型大小（N） ：模型中的參數數量。
訓練令牌（D） ：訓練過程中使用的令牌總數。
計算成本（c） ：分配用於培訓的總計算資源，通常以拖台（每秒的浮點操作）進行測量。

Chinchilla縮放定律表明，為了獲得最佳性能，模型大小和訓練數據的數量都應以相等的速度擴展。具體而言，訓練令牌的數量也應為每次加倍模型大小加倍。這種方法對比了早期的方法，該方法強調增加模型大小而沒有足夠增加訓練數據。

這種關係在數學上表示為：

什麼是龍貓縮放定律？

在哪裡：

L是模特的最終損失。
L_0是不可約的損失，代表了最佳性能。
與理想的生成過程相比， A和B是捕獲模型表現不佳的常數。
α和β是描述損失對模型大小和數據大小的尺度的指數。

龍貓縮放定律的主要發現

以下是龍貓鱗片定律的主要發現：

計算最佳訓練

龍貓縮放定律突出顯示了模型大小和訓練數據量之間的最佳平衡。具體而言，研究發現，每個模型參數的20個訓練令牌的大約比率非常適合通過給定的計算預算實現最佳性能。例如，具有700億參數的龍貓模型接受了1.4萬億代幣的訓練，比Gopher多四倍，但參數卻少得多。這種平衡導致模型在幾個基准上的表現明顯優於較大的模型。

來自400多個模型的經驗證據

為了得出龍貓縮放定律，Hoffmann等人。培訓了400多個變壓器型號，大小從7,000萬到160億個參數不等，在多達5000億個代幣的數據集上。經驗證據強烈支持以下假設：經過更多數據（以固定的計算預算）訓練的模型比單獨增加模型大小要好。

修訂的估計和持續改進

隨後的研究試圖完善Hoffmann等人的初始發現，從而確定參數估計值的可能調整。一些研究提出了原始結果中的較小不一致，並提出了修訂的估計值，以更好地適合觀察到的數據。這些調整表明需要進一步的研究以了解模型縮放的動態，但是《龍貓縮放定律》的核心見解仍然是寶貴的指南。

龍貓方法的好處

這是龍貓方法的好處：

提高性能

Chinchilla的模型大小和訓練數據相等的縮放得出了顯著的結果。儘管比許多其他大型模型都小，但在各種基准上，Chinchilla的表現都優於GPT-3，Gopher，甚至大量的超源性NLG模型（5300億個參數）。例如，在大量的多任務語言理解（MMLU）基准上，奇奇拉的平均準確性為67.5％，比Gopher的60％顯著提高。

降低計算成本

Chinchilla方法優化了性能，並降低了訓練和推理的計算和能源成本。諸如GPT-3和Gopher之類的培訓模型需要巨大的計算資源，使它們在現實世界中的應用非常昂貴。相比之下，Chinchilla的型號較小和更廣泛的培訓數據導致對微調和推理的計算要求較低，從而使其在下游應用程序中更容易訪問。

對未來研究和模型開發的影響

《龍貓縮放法》為LLM開發的未來提供了寶貴的見解。關鍵含義包括：

指導模型設計：了解如何平衡模型大小和培訓數據，使研究人員和開發人員在設計新模型時可以做出更明智的決策。通過遵守《龍貓縮放定律》中概述的原則，開發人員可以確保其模型既計算效率高且表現高。
指導模型設計：有關優化音量的知識，因此培訓數據為模型的研究和設計提供了信息。在此指南量表中，他們的想法的發展將在高效率的廣泛定義中運作，而不會過多地消費計算機資源。
性能優化：龍貓縮放定律提供了優化LLM的路線圖。通過專注於相等的規模，開發人員可以避免訓練不足的大型模型的陷阱，並確保對訓練和推理任務進行優化模型。
丹丘（Chinchilla）以外的探索：隨著研究的繼續，新的策略正在發展，以擴大龍貓縮放法的思想。例如，一些研究人員正在研究以更少的計算資源來達到相似性能水平的方法，或者進一步增強數據約束環境中的模型性能。這些探索可能會導致更有效的培訓管道。

挑戰和考慮因素

儘管《龍貓縮放法》標誌著了解LLM擴展的重要一步，但它也提出了新的問題和挑戰：

數據收集：就像龍貓一樣，訓練1.4萬億代幣的模型意味著許多高質量數據集的可用性。但是，這樣的數據收集和處理規模為研究人員和開發人員以及倫理問題（例如隱私和偏見）提出了組織問題。
偏見和毒性：但是，使用龍貓縮放定律訓練的模型的定期偏差和毒性比例降低比所有這些效率低下問題更容易，更有效。隨著LLM的權力和覆蓋範圍的增長，確保公平和減輕有害產出將是未來研究的關鍵領域。