ホームページ ウェブ3.0 Tokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考する

Tokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考する

Nov 04, 2024 am 12:36 AM
Scaling Tokenformer Transformer Architecture Tokenized Parameters AI Applications

トランスフォーマーは人工知能を変革し、NLP、コンピューター ビジョン、マルチモーダル データ統合において比類のないパフォーマンスを提供します。これらのモデルは、注意メカニズムを通じてデータ内のパターンを識別することに優れており、複雑なタスクに最適です。ただし、従来の構造に伴う計算コストが高いため、変圧器モデルの迅速なスケーリングを改善する必要があります。

Tokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考する

トランスフォーマーは人工知能に革命をもたらし、自然言語処理 (NLP)、コンピューター ビジョン、マルチモーダル データ統合において比類のないパフォーマンスを提供します。これらのモデルは、注意メカニズムを通じてデータ内のパターンを識別することに優れており、複雑なタスクに最適です。ただし、従来の構造に伴う計算コストが高いため、変圧器モデルの迅速なスケーリングを改善する必要があります。これらのモデルが成長するにつれて、大量のハードウェア リソースとトレーニング時間が必要になり、モデルのサイズが大きくなるにつれて指数関数的に増加します。

トランスフォーマーのスケーリングにおける主な障害は、線形投影レイヤー内の固定パラメーターにあります。この静的な構造により、完全に再トレーニングせずに拡張するモデルの能力が制限され、モデルのサイズが大きくなるにつれてコストが急激に増加します。これらの従来のモデルは通常、チャネル寸法の増加など、アーキテクチャの変更が発生した場合に包括的な再トレーニングを必要とします。

その結果、これらの拡張の計算コストは​​非現実的なほど高くなり、このアプローチには柔軟性が欠けています。新しいパラメーターを動的に追加できないため、成長が阻害され、これらのモデルは進化する AI アプリケーションへの適応性が低くなり、時間とリソースの面でよりコストがかかります。

歴史的に、モデルのスケーラビリティを管理するアプローチには、重みを複製したり、ニューロンを複製して層を拡張する Net2Net などの方法を使用してモデルを再構築したりすることが含まれていました。ただし、これらのアプローチでは、事前トレーニングされたモデルのバランスが崩れることが多く、その結果、収束速度が遅くなり、トレーニングがさらに複雑になります。

これらの手法は段階的に進歩していますが、スケーリング中にモデルの整合性を維持するには依然として限界があります。トランスフォーマーは静的な線形投影に大きく依存しているため、パラメーターの拡張は高価で柔軟性がありません。 GPT やその他の大規模なトランスフォーマーのような従来のモデルは、多くの場合、最初から再トレーニングされるため、新しいスケーリング段階ごとに高い計算コストが発生します。

マックス プランク研究所、Google、北京大学の研究者らは、モデル パラメーターをトークンとして扱うことでトランスフォーマーを根本的に再考し、トークンとパラメーター間の動的な相互作用を可能にする、Tokenformer と呼ばれる新しいアーキテクチャを開発しました。

このフレームワークでは、Tokenformer はトークンパラメーター アテンション (パテンション) レイヤーと呼ばれる新しいコンポーネントを導入し、増分スケーリングを容易にします。モデルは再トレーニングせずに新しいパラメーター トークンを追加できるため、トレーニング コストが大幅に削減されます。

Tokenformer は、同じフレームワーク内で入力トークンとパラメーターを表すことにより、柔軟なスケーリングを可能にし、スケーラビリティと高いパフォーマンスを維持する、より効率的でリソースを意識したモデル アーキテクチャを研究者に提供します。

Tokenformer の Pattention レイヤーは入力トークンをクエリとして使用し、モデル パラメーターはキーと値として機能します。これは、線形射影のみに依存する標準のトランスフォーマー アプローチとは異なります。

モデルのスケーリングは、新しいキーと値のパラメーターのペアを追加し、入力と出力の次元を一定に保ち、完全な再トレーニングを回避することによって実現されます。 Tokenformer のアーキテクチャはモジュール式に設計されており、研究者は追加のトークンを組み込むことでモデルをシームレスに拡張できます。

このインクリメンタル スケーリング機能は、学習済みの情報を中断することなく、新しいデータセットやより大きなモデル サイズに迅速に適応できると同時に、事前トレーニングされた重みの効率的な再利用をサポートします。

Tokenformer モデルは精度を維持しながら計算コストを大幅に削減するため、パフォーマンス上の利点は注目に値します。たとえば、Tokenformer は、従来のトランスフォーマーが必要とする一般的なトレーニング費用の半分のみで、パラメータ数を 1 億 2,400 万から 14 億に拡張しました。

ある実験では、モデルは 14 億のパラメーター構成に対して 11.77 のテスト複雑度を達成しました。これは、ゼロからトレーニングした同様のサイズの変換器の 11.63 の複雑度にほぼ一致します。

この効率性は、Tokenformer が従来のモデルの数分の 1 のリソース消費量で、言語やビジュアル モデリング タスクを含む複数のドメインにわたって高いパフォーマンスを達成できることを意味します。

Tokenformer は、AI 研究を推進し、トランスフォーマーベースのモデルを改善するための重要なポイントを多数提供します。これらには以下が含まれます:

パラメータをトークンとして扱うことで、再トレーニングせずに増分モデルのスケーリングが可能になります。

トークンパラメーター アテンション レイヤーにより、効率的なパラメーター拡張が容易になります。

モジュラー アーキテクチャは、追加のトークンを組み込むことでシームレスなモデルの拡張をサポートします。

このモデルは、リソースの消費を最小限に抑えながら、さまざまなドメインにわたって高いパフォーマンスを実現します。

結論として、Tokenformer は、トランスフォーマーベースのモデルをスケーリングする革新的なアプローチを提供します。このモデル アーキテクチャは、パラメーターをトークンとして扱い、コストを削減し、タスク間でモデルのパフォーマンスを維持することにより、スケーラビリティとリソース効率を実現します。

この柔軟性は変圧器設計における画期的な進歩であり、再トレーニングすることなく高度な AI アプリケーションの要求に適応できるモデルを提供します。 Tokenformer のアーキテクチャは将来の AI 研究に有望であり、大規模なモデルを持続的かつ効率的に開発する道を提供します。

HuggingFace の論文、GitHub ページ、モデルをチェックしてください。

この研究の功績はすべて、このプロジェクトの研究者に与えられます。また、Twitter で私たちをフォローし、Telegram チャンネルと LinkedIn グループに参加することも忘れないでください。私たちの仕事が気に入ったら、ニュースレターも気に入っていただけるでしょう。 55,000 ML SubReddit に忘れずに参加してください。

[私たちとのスポンサーシップの機会] 毎月 100 万人の読者と 50 万人のコミュニティ メンバーとともにあなたの研究/製品/ウェビナーを宣伝しましょう

以上がTokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

「Notorious」コナーマクレガーは暗号通貨ベンチャーを立ち上げ、彼の$ REAL COINで「Cryptoゲームを変更」することを約束します 「Notorious」コナーマクレガーは暗号通貨ベンチャーを立ち上げ、彼の$ REAL COINで「Cryptoゲームを変更」することを約束します Apr 06, 2025 am 10:14 AM

「Notoriousはほとんど起こりませんでした。あなたは本当の物語を望んでいますか?マクレガーの物語は、ダブリンを去らなかった若者についてのことでした。私は偉大さを示しました...」

NASDAQファイルは、Vaneck Avalanche(Avax)Trust ETFをリストします NASDAQファイルは、Vaneck Avalanche(Avax)Trust ETFをリストします Apr 11, 2025 am 11:04 AM

この新しい金融商品は、サードパーティのカストディアンが基礎となるavaxを保持して、トークンの市場価格を追跡するでしょう

Dogecoin(Doge)価格が急落します17% Dogecoin(Doge)価格が急落します17% Apr 08, 2025 am 11:20 AM

Dogecoin Priceは、過去24時間で17%急落し、271%を急上昇させて22億4,000万ドルの取引量でESTの午前4時30分時点で0.1365ドルで取引しました。

ブリックはトランプの関税から勝つことができますか? ブリックはトランプの関税から勝つことができますか? Apr 07, 2025 am 11:14 AM

世界的な経済状況は継続的に変化しており、最新の混乱の1つは、元米国大統領ドナルドトランプの関税の賦課によるものです

ウォール街は静かにソラナを支援していますか? 4,200万ドルの賭けはイエスと言っています ウォール街は静かにソラナを支援していますか? 4,200万ドルの賭けはイエスと言っています Apr 10, 2025 pm 12:43 PM

元Krakenの幹部のグループは、米国に上場している会社のJanoverを買収しました。これは、Solana(SOL)財務省の建設を開始するために、ベンチャーキャピタルの4,200万ドルの資金を確保しました。

ZCASH(ZEC)は、記録的な量のトークンが流通しなくなるにつれて35.69ドルの高値に達します ZCASH(ZEC)は、記録的な量のトークンが流通しなくなるにつれて35.69ドルの高値に達します Apr 09, 2025 am 10:36 AM

Zcashは最新の市場集会でトップのゲインズの1人であり、トレーダーが記録的な量のトークンを流通して移動したため、最高35.69ドルに達しました。

Trollercat($ TCAT)は、ミームコイン市場で支配的な力として際立っています Trollercat($ TCAT)は、ミームコイン市場で支配的な力として際立っています Apr 14, 2025 am 10:24 AM

暗号通貨の世界でミームコインの流星の上昇に気づいたことがありますか?オンラインジョークとして始まったものは、すぐに収益性の高い投資機会に進化しました

Om Mantra Cryptocurrencyが90%クラッシュし、チームはトークン供給の90%を捨てたと言われています Om Mantra Cryptocurrencyが90%クラッシュし、チームはトークン供給の90%を捨てたと言われています Apr 14, 2025 am 11:26 AM

投資家への壊滅的な打撃で、OM Mantra Cryptocurrencyは過去24時間で約90%崩壊し、価格は0.58ドルに急落しました。