Heim web3.0 Tokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden

Tokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden

Nov 04, 2024 am 12:36 AM
Scaling Tokenformer Transformer Architecture Tokenized Parameters AI Applications

Transformer haben die künstliche Intelligenz verändert und bieten unübertroffene Leistung in den Bereichen NLP, Computer Vision und multimodale Datenintegration. Diese Modelle zeichnen sich durch die Erkennung von Mustern in Daten durch ihre Aufmerksamkeitsmechanismen aus und eignen sich daher ideal für komplexe Aufgaben. Allerdings muss die schnelle Skalierung von Transformatormodellen aufgrund des hohen Rechenaufwands, der mit ihrer traditionellen Struktur verbunden ist, verbessert werden.

Tokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden

Transformer haben die künstliche Intelligenz revolutioniert und bieten beispiellose Leistung in der Verarbeitung natürlicher Sprache (NLP), Computer Vision und multimodaler Datenintegration. Diese Modelle zeichnen sich durch die Erkennung von Mustern in Daten durch ihre Aufmerksamkeitsmechanismen aus und eignen sich daher ideal für komplexe Aufgaben. Allerdings muss die schnelle Skalierung von Transformatormodellen aufgrund des hohen Rechenaufwands, der mit ihrer traditionellen Struktur verbunden ist, verbessert werden. Wenn diese Modelle wachsen, erfordern sie erhebliche Hardwareressourcen und Schulungszeit, die exponentiell mit der Modellgröße ansteigen.

Das Haupthindernis bei der Skalierung von Transformatoren liegt in den festen Parametern innerhalb ihrer linearen Projektionsschichten. Diese statische Struktur begrenzt die Fähigkeit des Modells, sich zu erweitern, ohne dass es vollständig neu trainiert werden muss, was mit zunehmender Modellgröße exponentiell teurer wird. Diese traditionellen Modelle erfordern in der Regel eine umfassende Umschulung, wenn architektonische Änderungen vorgenommen werden, wie z. B. größere Kanalabmessungen.

Folglich steigt der Rechenaufwand für diese Erweiterungen unpraktisch hoch und dem Ansatz mangelt es an Flexibilität. Die Unfähigkeit, neue Parameter dynamisch hinzuzufügen, bremst das Wachstum, wodurch diese Modelle weniger an sich entwickelnde KI-Anwendungen angepasst werden können und teurer in Bezug auf Zeit und Ressourcen sind.

In der Vergangenheit umfassten Ansätze zur Verwaltung der Modellskalierbarkeit das Duplizieren von Gewichten oder das Umstrukturieren von Modellen mithilfe von Methoden wie Net2Net, bei denen duplizierende Neuronen Schichten erweitern. Allerdings stören diese Ansätze oft das Gleichgewicht vorab trainierter Modelle, was zu langsameren Konvergenzraten und zusätzlicher Trainingskomplexität führt.

Obwohl diese Methoden schrittweise Fortschritte gemacht haben, stoßen sie immer noch auf Einschränkungen bei der Wahrung der Modellintegrität während der Skalierung. Transformatoren basieren stark auf statischen linearen Projektionen, was die Parametererweiterung teuer und unflexibel macht. Herkömmliche Modelle wie GPT und andere große Transformatoren werden oft von Grund auf neu trainiert, was mit jeder neuen Skalierungsstufe hohe Rechenkosten verursacht.

Jetzt haben Forscher des Max-Planck-Instituts, von Google und der Peking-Universität eine neue Architektur namens Tokenformer entwickelt, die Transformatoren grundlegend neu konzipiert, indem sie Modellparameter als Token behandelt und so dynamische Interaktionen zwischen Token und Parametern ermöglicht.

In diesem Framework führt Tokenformer eine neuartige Komponente namens Token-Parameter-Aufmerksamkeitsschicht (Pattention) ein, die eine inkrementelle Skalierung erleichtert. Das Modell kann ohne erneutes Training neue Parameter-Tokens hinzufügen, wodurch die Trainingskosten drastisch gesenkt werden.

Durch die Darstellung von Eingabetokens und Parametern innerhalb desselben Frameworks ermöglicht Tokenformer eine flexible Skalierung und bietet Forschern eine effizientere, ressourcenschonendere Modellarchitektur, die Skalierbarkeit und hohe Leistung beibehält.

Die Pattention-Schicht von Tokenformer verwendet Eingabe-Tokens als Abfragen, während Modellparameter als Schlüssel und Werte dienen, was sich vom Standard-Transformer-Ansatz unterscheidet, der ausschließlich auf linearen Projektionen basiert.

Die Skalierung des Modells wird durch das Hinzufügen neuer Schlüssel-Wert-Parameterpaare erreicht, wobei die Eingabe- und Ausgabedimensionen konstant gehalten werden und eine vollständige Neuschulung vermieden wird. Die Architektur von Tokenformer ist modular aufgebaut, sodass Forscher das Modell nahtlos durch die Integration zusätzlicher Token erweitern können.

Diese inkrementelle Skalierungsfunktion unterstützt die effiziente Wiederverwendung vorab trainierter Gewichte und ermöglicht gleichzeitig eine schnelle Anpassung an neue Datensätze oder größere Modellgrößen, ohne erlernte Informationen zu beeinträchtigen.

Die Leistungsvorteile von Tokenformer sind bemerkenswert, da das Modell die Rechenkosten erheblich reduziert und gleichzeitig die Genauigkeit beibehält. Tokenformer beispielsweise skalierte von 124 Millionen auf 1,4 Milliarden Parameter mit nur der Hälfte der typischen Schulungskosten, die herkömmliche Transformatoren erfordern.

In einem Experiment erreichte das Modell eine Test-Perplexität von 11,77 für eine Konfiguration mit 1,4 Milliarden Parametern, was nahezu der 11,63-Perplexität eines von Grund auf trainierten Transformators ähnlicher Größe entspricht.

Diese Effizienz bedeutet, dass Tokenformer eine hohe Leistung über mehrere Domänen hinweg, einschließlich sprachlicher und visueller Modellierungsaufgaben, zu einem Bruchteil des Ressourcenaufwands herkömmlicher Modelle erzielen kann.

Tokenformer präsentiert zahlreiche wichtige Erkenntnisse zur Weiterentwicklung der KI-Forschung und zur Verbesserung transformatorbasierter Modelle. Dazu gehören:

Die Behandlung von Parametern als Token ermöglicht eine inkrementelle Modellskalierung ohne erneutes Training.

Die Token-Parameter-Aufmerksamkeitsschicht ermöglicht eine effiziente Parametererweiterung.

Die modulare Architektur unterstützt ein nahtloses Modellwachstum durch die Integration zusätzlicher Token.

Das Modell erreicht eine hohe Leistung in verschiedenen Domänen mit minimalem Ressourcenaufwand.

Zusammenfassend lässt sich sagen, dass Tokenformer einen transformativen Ansatz zur Skalierung transformatorbasierter Modelle bietet. Diese Modellarchitektur erreicht Skalierbarkeit und Ressourceneffizienz, indem Parameter als Token behandelt, Kosten gesenkt und die Modellleistung über alle Aufgaben hinweg erhalten bleibt.

Diese Flexibilität stellt einen Durchbruch im Transformatordesign dar und stellt ein Modell bereit, das sich ohne Umschulung an die Anforderungen fortschrittlicher KI-Anwendungen anpassen kann. Die Architektur von Tokenformer ist vielversprechend für die zukünftige KI-Forschung und bietet einen Weg zur nachhaltigen und effizienten Entwicklung groß angelegter Modelle.

Schauen Sie sich den Artikel, die GitHub-Seite und die Modelle auf HuggingFace an.

Der gesamte Dank für diese Forschung geht an die Forscher dieses Projekts. Vergessen Sie auch nicht, uns auf Twitter zu folgen und unserem Telegram-Kanal und unserer LinkedIn-Gruppe beizutreten. Wenn Ihnen unsere Arbeit gefällt, werden Sie unseren Newsletter lieben. Vergessen Sie nicht, unserem 55k ML SubReddit beizutreten.

[Sponsoring-Möglichkeit bei uns] Bewerben Sie Ihre Forschung/Ihr Produkt/Webinar mit 1 Million monatlichen Lesern und 500.000 Community-Mitgliedern

Das obige ist der detaillierte Inhalt vonTokenformer: Transformatoren neu denken, indem Parameter als Token behandelt werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Nordhold: Fusionssystem, erklärt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1677
14
PHP-Tutorial
1280
29
C#-Tutorial
1257
24
Bitwise kündigt die Auflistung von vier seiner Krypto -ETPs an der London Stock Exchange (LSE) an. Bitwise kündigt die Auflistung von vier seiner Krypto -ETPs an der London Stock Exchange (LSE) an. Apr 18, 2025 am 11:24 AM

Bitwise, ein führender digitaler Vermögensverwalter, hat die Auflistung von vier seiner Crypto Exchange-Produkte (ETPs) an der London Stock Exchange (LSE) angekündigt.

Movement Labs und die Movement Network Foundation haben eine unabhängige Untersuchung zu jüngsten marktempfindlichen Unregelmäßigkeiten im Zusammenhang mit dem Move-Token eingeleitet. Movement Labs und die Movement Network Foundation haben eine unabhängige Untersuchung zu jüngsten marktempfindlichen Unregelmäßigkeiten im Zusammenhang mit dem Move-Token eingeleitet. Apr 16, 2025 am 11:16 AM

NT Labs und die Movement Network Foundation starten unabhängige Untersuchungen in Move Token Market-Making-Unregelmäßigkeiten

Eine Kapitalwelle fließt aus Ethereum [ETH] in Tron [TRX] Eine Kapitalwelle fließt aus Ethereum [ETH] in Tron [TRX] Apr 16, 2025 am 11:14 AM

Mit 1,52 Milliarden US-Dollar in Stablecoins, die zu Tron wandern, scheinen die Anleger tiefere Ketten zu bevorzugen und sich über die traditionellen USD-unterstützten Vermögenswerte hinaus zu diversifizieren.

Der PI -Netzwerk -Token -Preis hat in der vergangenen Woche um mehr als 14% gestiegen. Der PI -Netzwerk -Token -Preis hat in der vergangenen Woche um mehr als 14% gestiegen. Apr 16, 2025 am 11:22 AM

Zum Zeitpunkt des Drucks wird PI nach seiner Integration mit ChainLink am 12. April bei 0,6711 USD gehandelt. Die Ankündigung verursachte einen Anstieg des PI -Preispreises

WalletConnect startet sein $ WCT -Token an Top -Kryptowährungsbörsen WalletConnect startet sein $ WCT -Token an Top -Kryptowährungsbörsen Apr 16, 2025 am 10:32 AM

WalletConnect freut sich, die offizielle Einführung seines $ WCT -Tokens bekannt zu geben, um den starken Dynamik und das marktwirtschaftliche Vertrauen zu zeigen.

Bitcoin (BTC) kostet 85.000 US Bitcoin (BTC) kostet 85.000 US Apr 16, 2025 am 10:04 AM

Bitcoin (BTC) liegt wieder über 85.000 US-Dollar, und die BTC-Dominanz steigt auf seinen vierjährigen Höhepunkt zu. Dies kann die perfekte Zeit für Altcoins mit einem hohen BTC sein

Eines von nur 10 Beispielen, die in diesem kostbaren Metall getroffen wurden, wird die bevorstehende weltweite Showcase -Auktion 2025 der Firma hervorheben. Eines von nur 10 Beispielen, die in diesem kostbaren Metall getroffen wurden, wird die bevorstehende weltweite Showcase -Auktion 2025 der Firma hervorheben. Apr 18, 2025 am 11:08 AM

Während 3.500 Beispiele der Eröffnungsmedaille von 1945 in Bronze in Bronze an die Öffentlichkeit verkauft wurden und heute regelmäßig angeboten werden, sind Goldbeispiele eine andere Angelegenheit vollständig.

Das Bitcoin (BTC) -Stiment wird gestern bullisch, da über 467 Millionen US -Dollar der Kryptowährung zurückgezogen wurden Das Bitcoin (BTC) -Stiment wird gestern bullisch, da über 467 Millionen US -Dollar der Kryptowährung zurückgezogen wurden Apr 16, 2025 am 11:18 AM

Nach den von Intotheblock veröffentlichten heutigen Daten erscheint das Gefühl von Bitcoin in Richtung Bullisum.