什麼是龍貓縮放定律?
介紹
大型語言模型(LLMS)促進了自然語言處理(NLP)的進步,但它們也提出了一些有關計算效率的重要問題。這些模型已經變得太大了,因此培訓和推理成本不再在合理的限制範圍內。
為了解決這個問題,Hoffmann等人引入的龍貓縮放定律。 2022年,提供了一個開創性的框架,以優化LLM的培訓。 Chinchilla縮放定律提供了一個必要的指南,可以通過在模型大小,培訓數據和計算資源之間建立關係來有效地擴展LLM的情況而不損害績效。我們將在本文中詳細討論它。
概述
- Chinchilla縮放定律通過平衡模型大小和數據量來優化LLM培訓,以提高效率。
- 新的擴展見解表明,在接受更多數據培訓時,較小的語言模型可以勝過較大的語言模型。
- Chinchilla的方法通過將數據數量優先於模型尺寸來挑戰傳統的LLM縮放,以提高計算效率。
- Chinchilla縮放法為NLP提供了新的路線圖,從而指導了高性能,資源有效的模型的發展。
- Chinchilla縮放定律通過將模型大小和培訓數據加倍,從而最大程度地提高語言模型性能,從而最大程度地縮寫計算成本。
目錄
- 什麼是Chinchilla縮放法?
- 焦點轉變:從模型大小到數據
- 龍貓縮放定律的概述
- 龍貓縮放定律的主要發現
- 計算最佳訓練
- 來自400多個模型的經驗證據
- 修訂的估計和持續改進
- 龍貓方法的好處
- 提高性能
- 降低計算成本
- 對未來研究和模型開發的影響
- 挑戰和考慮因素
- 常見問題
什麼是Chinchilla縮放法?
該論文“培訓譯文最佳的大語言模型”於2022年發表,重點是確定三個關鍵因素之間的關係:模型大小,代幣數量和計算預算。作者發現,現有的大型語言模型(LLMS)如GPT-3(175b參數),Gopher(280b)和Megatron(530b)的訓練明顯不足。儘管這些模型的大小增加,但訓練數據的數量在很大程度上保持恆定,從而導致了次優的性能。作者提出,必須將模型大小和訓練令牌的數量平均縮放,以進行最佳訓練。為了證明這一點,他們培訓了大約400款型號,範圍從7,000萬到160億多個參數不等,使用了5到5000億個令牌。
基於這些發現,作者訓練了一種名為Chinchilla的新模型,該模型使用與Gopher(280B)相同的計算預算,但只有70B參數,而培訓數據則多四倍。 Chinchilla的表現優於幾個著名的LLM,包括Gopher(280b),GPT-3(175b),Jurassic-1(178b)和Megatron(530b)。這一結果與OpenAI在“ LLMS縮放定律”中提出的縮放定律相矛盾,這表明較大的模型總是會更好。 Chinchilla縮放定律表明,經過更多數據培訓時,較小的模型可以實現出色的性能。這種方法還使較小的模型更易於微調和減少推理潛伏期。
該圖顯示,儘管較小,但Chinchilla(70b)遵循不同的計算與參數比率,並且超過了Gopher和GPT-3等較大的模型。
其他方法(1、2和3)探索了基於計算分配優化模型性能的不同方法。
從這個數字中,我們可以看到Chinchilla的優勢,即使Chinchilla的尺寸較小(70B參數),它也接受了更大的數據集(1.4萬億代碼)的培訓,該數據遵循了Chinchilla縮放法律中介紹的原則,如果他們在更大的模型上培訓了更大的模型。參數但接受了相對較少的令牌培訓,這表明這些模型可能沒有完全優化其計算潛力。
焦點轉變:從模型大小到數據
從歷史上看,提高LLM性能的重點一直在增加模型大小上,如GPT-3和Gopher等模型所示。這是由Kaplan等人的研究驅動的。 (2020),它提出了模型大小和性能之間的冪律關係。但是,隨著模型的增長,訓練數據的數量並未相應地擴展,從而導致計算潛力不足。 Chinchilla縮放法律通過表明資源的分配更加平衡,尤其是在數據和模型大小方面,可以導致表現更好的模型,這些模型在不達到最低可能的損失的情況下會導致更佳的計算模型。
龍貓縮放定律的概述
模型大小,訓練令牌和計算成本之間的權衡是龍貓縮放定律的核心。該法律在這三個參數之間建立了最佳的平衡:
- 模型大小(N) :模型中的參數數量。
- 訓練令牌(D) :訓練過程中使用的令牌總數。
- 計算成本(c) :分配用於培訓的總計算資源,通常以拖台(每秒的浮點操作)進行測量。
Chinchilla縮放定律表明,為了獲得最佳性能,模型大小和訓練數據的數量都應以相等的速度擴展。具體而言,訓練令牌的數量也應為每次加倍模型大小加倍。這種方法對比了早期的方法,該方法強調增加模型大小而沒有足夠增加訓練數據。
這種關係在數學上表示為:
在哪裡:
- L是模特的最終損失。
- L_0是不可約的損失,代表了最佳性能。
- 與理想的生成過程相比, A和B是捕獲模型表現不佳的常數。
- α和β是描述損失對模型大小和數據大小的尺度的指數。
龍貓縮放定律的主要發現
以下是龍貓鱗片定律的主要發現:
計算最佳訓練
龍貓縮放定律突出顯示了模型大小和訓練數據量之間的最佳平衡。具體而言,研究發現,每個模型參數的20個訓練令牌的大約比率非常適合通過給定的計算預算實現最佳性能。例如,具有700億參數的龍貓模型接受了1.4萬億代幣的訓練,比Gopher多四倍,但參數卻少得多。這種平衡導致模型在幾個基准上的表現明顯優於較大的模型。
來自400多個模型的經驗證據
為了得出龍貓縮放定律,Hoffmann等人。培訓了400多個變壓器型號,大小從7,000萬到160億個參數不等,在多達5000億個代幣的數據集上。經驗證據強烈支持以下假設:經過更多數據(以固定的計算預算)訓練的模型比單獨增加模型大小要好。
修訂的估計和持續改進
隨後的研究試圖完善Hoffmann等人的初始發現,從而確定參數估計值的可能調整。一些研究提出了原始結果中的較小不一致,並提出了修訂的估計值,以更好地適合觀察到的數據。這些調整表明需要進一步的研究以了解模型縮放的動態,但是《龍貓縮放定律》的核心見解仍然是寶貴的指南。
龍貓方法的好處
這是龍貓方法的好處:
提高性能
Chinchilla的模型大小和訓練數據相等的縮放得出了顯著的結果。儘管比許多其他大型模型都小,但在各種基准上,Chinchilla的表現都優於GPT-3,Gopher,甚至大量的超源性NLG模型(5300億個參數)。例如,在大量的多任務語言理解(MMLU)基准上,奇奇拉的平均準確性為67.5%,比Gopher的60%顯著提高。
降低計算成本
Chinchilla方法優化了性能,並降低了訓練和推理的計算和能源成本。諸如GPT-3和Gopher之類的培訓模型需要巨大的計算資源,使它們在現實世界中的應用非常昂貴。相比之下,Chinchilla的型號較小和更廣泛的培訓數據導致對微調和推理的計算要求較低,從而使其在下游應用程序中更容易訪問。
對未來研究和模型開發的影響
《龍貓縮放法》為LLM開發的未來提供了寶貴的見解。關鍵含義包括:
- 指導模型設計:了解如何平衡模型大小和培訓數據,使研究人員和開發人員在設計新模型時可以做出更明智的決策。通過遵守《龍貓縮放定律》中概述的原則,開發人員可以確保其模型既計算效率高且表現高。
- 指導模型設計:有關優化音量的知識,因此培訓數據為模型的研究和設計提供了信息。在此指南量表中,他們的想法的發展將在高效率的廣泛定義中運作,而不會過多地消費計算機資源。
- 性能優化:龍貓縮放定律提供了優化LLM的路線圖。通過專注於相等的規模,開發人員可以避免訓練不足的大型模型的陷阱,並確保對訓練和推理任務進行優化模型。
- 丹丘(Chinchilla)以外的探索:隨著研究的繼續,新的策略正在發展,以擴大龍貓縮放法的思想。例如,一些研究人員正在研究以更少的計算資源來達到相似性能水平的方法,或者進一步增強數據約束環境中的模型性能。這些探索可能會導致更有效的培訓管道。
挑戰和考慮因素
儘管《龍貓縮放法》標誌著了解LLM擴展的重要一步,但它也提出了新的問題和挑戰:
- 數據收集:就像龍貓一樣,訓練1.4萬億代幣的模型意味著許多高質量數據集的可用性。但是,這樣的數據收集和處理規模為研究人員和開發人員以及倫理問題(例如隱私和偏見)提出了組織問題。
- 偏見和毒性:但是,使用龍貓縮放定律訓練的模型的定期偏差和毒性比例降低比所有這些效率低下問題更容易,更有效。隨著LLM的權力和覆蓋範圍的增長,確保公平和減輕有害產出將是未來研究的關鍵領域。
結論
龍貓的縮放定律代表了我們對優化大型語言模型培訓的理解的關鍵進步。通過在模型大小,培訓數據和計算成本之間建立明確的關係,該法律為有效擴展LLM的計算最佳框架提供了最佳的框架。 Chinchilla模型的成功證明了這種方法在績效和資源效率方面的實際好處。
隨著該領域的研究繼續,龍貓縮放法的原理可能會影響LLM開發的未來,從而指導模型的設計,這些模型在維持可持續性和可及性的同時,推動了自然語言處理的邊界。
另外,如果您正在在線尋找生成AI課程,請探索:Genai Pinnacle程序!
常見問題
Q1。什麼是龍貓縮放定律?Ans。 Chinchilla縮放定律是一個經驗框架,描述了語言模型的大小(參數數),培訓數據的量(令牌)和培訓所需的計算資源之間的最佳關係。它旨在最大程度地減少培訓計算,同時最大程度地提高模型性能。
Q2。 Chinchilla縮放定律的關鍵參數是什麼? Ans。關鍵參數包括:
1。 N:模型中的參數數。
2。 D:培訓令牌的數量。
3。 C:拖船中的總計算成本。
4。 L:模型在測試數據集上實現的平均損失。
5。 A和B:與理想生成過程相比,反映表現不佳的常數。
6。 α和β:指數分別描述損失量表的模型和數據大小。
Ans。該法律表明,模型大小和訓練令牌應以相等的速度擴展以達到最佳性能。具體而言,對於型號尺寸的每次加倍,訓練令牌的數量也應加倍,通常旨在每個參數的比例約為20個令牌。
Q4。龍貓縮放定律有哪些批評或局限性?Ans。最近的研究表明,Hoffmann等人的原始估計值可能存在潛在的問題,包括報告的數據和過度置信區間的不一致。一些研究人員認為,擴展法可能過於簡單,並且在模型培訓中沒有考慮各種實際考慮。
Q5。 《龍貓縮放法》如何影響最近的語言模型開發?Ans。 《龍貓縮放法》的發現為包括Google的Gemini Suite在內的幾個著名模型的設計和培訓過程提供了信息。它還促使人們討論了“超越龍貓”策略的討論,研究人員根據原始縮放法探索了大於最佳的培訓模型。
以上是什麼是龍貓縮放定律?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在從事代理AI時,開發人員經常發現自己在速度,靈活性和資源效率之間進行權衡。我一直在探索代理AI框架,並遇到了Agno(以前是Phi-

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

陷入困境的基準:駱駝案例研究 2025年4月上旬,梅塔(Meta)揭開了其Llama 4套件的模特,擁有令人印象深刻的性能指標,使他們對GPT-4O和Claude 3.5 Sonnet等競爭對手的良好定位。倫斯的中心

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

視頻遊戲可以緩解焦慮,建立焦點或支持多動症的孩子嗎? 隨著醫療保健在全球範圍內挑戰,尤其是在青年中的挑戰,創新者正在轉向一種不太可能的工具:視頻遊戲。現在是世界上最大的娛樂印度河之一

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

雙子座是Google AI策略的基礎 雙子座是Google AI代理策略的基石,它利用其先進的多模式功能來處理和生成跨文本,圖像,音頻,視頻和代碼的響應。由DeepM開發
