首頁 網路3.0 Tokenformer:透​​過將參數視為令牌來重新思考 Transformer

Tokenformer:透​​過將參數視為令牌來重新思考 Transformer

Nov 04, 2024 am 12:36 AM
Scaling Tokenformer Transformer Architecture Tokenized Parameters AI Applications

Transformers 改變了人工智慧,在 NLP、電腦視覺和多模式資料整合方面提供了無與倫比的性能。這些模型擅長透過注意力機制識別資料中的模式,使其成為複雜任務的理想選擇。然而,由於傳統結構的計算成本較高,變壓器模型的快速擴展需要改進。

Tokenformer:透​​過將參數視為令牌來重新思考 Transformer

Transformers 徹底改變了人工智慧,在自然語言處理 (NLP)、電腦視覺和多模式資料整合方面提供了無與倫比的效能。這些模型擅長透過注意力機制識別資料中的模式,使其成為複雜任務的理想選擇。然而,由於傳統結構的計算成本較高,變壓器模型的快速擴展需要改進。隨著這些模型的增長,它們需要大量的硬體資源和訓練時間,並且隨著模型大小的增加而呈指數級增長。

縮放變壓器的主要障礙在於其線性投影層內的固定參數。這種靜態結構限制了模型在不完全重新訓練的情況下擴展的能力,隨著模型大小的增加,這種能力會呈指數級增長。當架構發生修改時,例如增加通道尺寸,這些傳統模型通常需要全面的重新訓練。

因此,這些擴充的計算成本變得非常高,而且該方法缺乏靈活性。無法動態添加新參數會抑製成長,使這些模型不太適應不斷發展的人工智慧應用程序,並且在時間和資源方面成本更高。

從歷史上看,管理模型可擴展性的方法包括使用 Net2Net 等方法複製權重或重構模型,其中複製神經元擴展層。然而,這些方法通常會破壞預訓練模型的平衡,導致收斂速度變慢並增加訓練複雜性。

雖然這些方法取得了漸進的進展,但它們在擴展過程中保持模型完整性方面仍然面臨限制。 Transformer 嚴重依賴靜態線性投影,導致參數擴展成本高且不靈活。 GPT 和其他大型 Transformer 等傳統模型經常從頭開始重新訓練,每個新的擴展階段都會產生高昂的計算成本。

現在,馬克斯普朗克研究所、谷歌和北京大學的研究人員開發了一種名為Tokenformer 的新架構,透過將模型參數視為令牌,從根本上重新構想了Transformer,從而允許令牌和參數之間進行動態互動。

在這個框架中,Tokenformer 引入了一個稱為令牌參數注意(Pattention)層的新穎元件,它有助於增量擴展。該模型可以添加新的參數標記而無需重新訓練,大大降低了訓練成本。

透過在同一框架內表示輸入令牌和參數,Tokenformer 可以靈活擴展,為研究人員提供更有效率、資源意識更強的模型架構,同時保持可擴展性和高效能。

Tokenformer 的 Pattention 層使用輸入 token 作為查詢,而模型參數作為鍵和值,這與標準 Transformer 方法不同,僅依賴線性投影。

模型的擴展是透過添加新的鍵值參數對、保持輸入和輸出維度不變並避免完全重新訓練來實現的。 Tokenformer 的架構設計為模組化,使研究人員能夠透過合併額外的代幣來無縫擴展模型。

這種增量擴展功能支援預訓練權重的有效重複使用,同時能夠快速適應新資料集或更大的模型大小,而不會破壞學習的資訊。

Tokenformer 的效能優勢非常顯著,因為模型在保持準確性的同時顯著降低了計算成本。例如,Tokenformer 將參數從 1.24 億擴展到 14 億,而訓練成本僅為傳統 Transformer 所需的一半。

在一項實驗中,該模型針對 14 億個參數配置實現了 11.77 的測試困惑度,幾乎與從頭開始訓練的類似大小的 Transformer 的 11.63 困惑度相匹配。

這種效率意味著 Tokenformer 可以在多個領域實現高效能,包括語言和視覺建模任務,而資源支出只是傳統模型的一小部分。

Tokenformer 提出了許多關於推進人工智慧研究和改進基於 Transformer 的模型的關鍵要點。其中包括:

將參數視為令牌可以實現增量模型擴展,而無需重新訓練。

令牌參數注意層有助於高效率的參數擴展。

模組化架構透過合併額外的代幣來支援無縫模型成長。

該模型以最少的資源消耗在不同領域實現了高效能。

總之,Tokenformer 提供了一種變革性方法來擴展基於 Transformer 的模型。此模型架構透過將參數視為令牌、降低成本並保持跨任務的模型效能來實現可擴展性和資源效率。

這種靈活性代表了變壓器設計的突破,提供了一種無需重新訓練即可適應先進人工智慧應用需求的模型。 Tokenformer 的架構為未來的人工智慧研究帶來了希望,提供了可持續、高效地開發大規模模型的途徑。

查看 HuggingFace 上的論文、GitHub 頁面和模型。

這項研究的所有功勞都歸功於該計畫的研究人員。另外,不要忘記在 Twitter 上關注我們並加入我們的 Telegram 頻道和 LinkedIn 群組。如果您喜歡我們的工作,您一定會喜歡我們的時事通訊。不要忘記加入我們的 55k ML SubReddit。

[我們的贊助機會]與 100 萬每月讀者和 50 萬社區成員推廣您的研究/產品/網絡研討會

以上是Tokenformer:透​​過將參數視為令牌來重新思考 Transformer的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1662
14
CakePHP 教程
1419
52
Laravel 教程
1311
25
PHP教程
1262
29
C# 教程
1234
24
納斯達克文件列出Vaneck Avalanche(Avax)Trust ETF 納斯達克文件列出Vaneck Avalanche(Avax)Trust ETF Apr 11, 2025 am 11:04 AM

這種新的金融工具將跟踪令牌的市場價格,第三方保管人持有基本的avax

OM Mantra加密貨幣墜毀90%,據稱團隊傾倒了90%的令牌供應 OM Mantra加密貨幣墜毀90%,據稱團隊傾倒了90%的令牌供應 Apr 14, 2025 am 11:26 AM

在對投資者的毀滅性打擊中,OM咒語加密貨幣在過去24小時內倒塌了約90%,價格下降到0.58美元。

隨著創紀錄的令牌移出流通,Zcash(ZEC)達到35.69美元的高價 隨著創紀錄的令牌移出流通,Zcash(ZEC)達到35.69美元的高價 Apr 09, 2025 am 10:36 AM

Zcash是最新市場集會期間最大的損益之一,隨著交易者從流通中移出創紀錄的代幣,達到35.69美元。

華爾街悄悄地支持索拉納嗎? 4200萬美元的賭註說是 華爾街悄悄地支持索拉納嗎? 4200萬美元的賭註說是 Apr 10, 2025 pm 12:43 PM

一群前Kraken高管收購了美國上市的公司Janover,該公司獲得了4,200萬美元的風險投資資金,開始建造Solana(Sol)財政部。

金磚國家可以從特朗普的關稅中獲勝嗎? 金磚國家可以從特朗普的關稅中獲勝嗎? Apr 07, 2025 am 11:14 AM

全球經濟格局正在不斷變化,最新的中斷之一來自前美國總統唐納德·特朗普(Donald Trump)徵收關稅

Dogecoin(Doge)價格下降17% Dogecoin(Doge)價格下降17% Apr 08, 2025 am 11:20 AM

在過去24小時內,Dogecoin的價格下降了17%,截至美國東部時間上午4.30,交易量為0.1365美元,交易量的交易量飆升了271%,至22.4億美元。

TrollerCat($ TCAT)在模因硬幣市場中脫穎而出 TrollerCat($ TCAT)在模因硬幣市場中脫穎而出 Apr 14, 2025 am 10:24 AM

您是否注意到了加密貨幣世界中模因硬幣的迅速崛起?最初的在線笑話很快發展成為有利可圖的投資機會

隨著恐懼驅動的銷售,Blockdag(BDAG)在人群中脫穎而出 隨著恐懼驅動的銷售,Blockdag(BDAG)在人群中脫穎而出 Apr 13, 2025 am 11:48 AM

隨著恐懼在加密貨幣市場的銷售驅動器,諸如Cardano和Solana之類的主要硬幣面臨艱難時期。