Inhaltsverzeichnis
Was ist der Zweck des Verstärkungslernens (RL)?
Intuition hinter Rl
rl ist nicht „neu“ - es kann das menschliche Know -how übertreffen (Alphago, 2016)
Wertfunktion
Schauspieler-kritische Architektur
Verstärkungslernen mit menschlichem Feedback (RLHF)
Upsides von RLHF
Nachteile von rlhf
Haben Sie Fragen oder Ideen für das, was ich als nächstes behandeln sollte? Lass sie in die Kommentare fallen - ich würde gerne deine Gedanken hören. Wir sehen uns im nächsten Artikel!
Heim Technologie-Peripheriegeräte KI Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

Feb 28, 2025 am 10:37 AM

Willkommen in Teil 2 meines LLM Deep Dive. Wenn Sie Teil 1 nicht gelesen haben, empfehle ich Ihnen dringend, es zuerst zu überprüfen.

zuvor haben wir die ersten beiden Hauptstadien des Trainings mit LLM behandelt:

  1. Vorverzerend-Lernen aus massiven Datensätzen, um ein Basismodell zu bilden.
  2. beaufsichtigte Feinabstimmung (SFT)-Verfeinerung des Modells mit kuratierten Beispielen, um es nützlich zu machen.

Jetzt tauchen wir in die nächste Hauptphase ein: Verstärkungslernen (RL) . Während die Vorausbildung und SFT gut etabliert sind, entwickelt sich RL immer noch weiter, ist jedoch zu einem kritischen Bestandteil der Trainingspipeline.

Ich habe Referenz von Andrej Karpathys weit verbreitetes 3,5-stündiger YouTube von 3,5 Stunden genommen. Andrej ist Gründungsmitglied von Openai, seine Erkenntnisse sind Gold - Sie haben die Idee.

lass uns gehen?

Was ist der Zweck des Verstärkungslernens (RL)?

Menschen und LLMs verarbeiten Informationen unterschiedlich. Was für uns intuitiv ist - wie die grundlegende Arithmetik - ist möglicherweise nicht für ein LLM, der nur Text als Sequenzen von Token ansieht. Umgekehrt kann ein LLM Experten-Level-Antworten zu komplexen Themen generieren, nur weil es im Training genügend Beispiele gesehen hat.

Dieser Unterschied in der Wahrnehmung macht es für menschliche Annotatoren schwierig, die „perfekte“ Etiketten zu liefern, die ein LLM konsequent zur richtigen Antwort führen.

rl brücken diese Lücke, indem er das Modell zu aus seiner eigenen Erfahrung lerne .

Anstatt sich ausschließlich auf explizite Etiketten zu verlassen, untersucht das Modell verschiedene Token -Sequenzen und empfängt Feedback - Belohnungssignale -, auf denen die Ausgänge am nützlichsten sind. Im Laufe der Zeit lernt es, sich mit der menschlichen Absicht besser auszurichten.

Intuition hinter Rl

llms sind stochastisch - was bedeutet, dass ihre Antworten nicht festgelegt sind. Auch bei der gleichen Eingabeaufforderung variiert der Ausgang, da er aus einer Wahrscheinlichkeitsverteilung abgetastet wird.

Wir können diese Zufälligkeit nutzen, indem wir Tausende oder sogar Millionen möglicher Antworten parallel erzeugen. Betrachten Sie es als das Modell, das verschiedene Wege erforscht - einige gute, einige schlechte. Unser Ziel ist es, es zu ermutigen, die besseren Wege öfter aufzunehmen.

Um dies zu tun, trainieren wir das Modell auf den Sequenzen von Token, die zu besseren Ergebnissen führen. Im Gegensatz zu beaufsichtigten Feinabstimmungen, bei denen menschliche Experten beschriftete Daten liefern, ermöglicht Verstärkungslernen das Modell von sich selbst.

Das Modell entdeckt, welche Antworten am besten funktionieren, und nach jedem Trainingsschritt aktualisieren wir seine Parameter. Im Laufe der Zeit führt das Modell mit höherer Wahrscheinlichkeit hochwertige Antworten, wenn sie in Zukunft ähnliche Eingabeaufforderungen erhalten.

Aber wie bestimmen wir, welche Antworten am besten sind? Und wie viel RL sollen wir tun? Die Details sind schwierig, und sie richtig zu machen ist nicht trivial.

rl ist nicht „neu“ - es kann das menschliche Know -how übertreffen (Alphago, 2016)

Ein großartiges Beispiel für RLs Macht ist das Alphago von DeepMind, die erste KI, die einen professionellen Go-Spieler besiegt und späteres Spiel auf Menschenebene übertroffen hat.

In dem Naturpapier 2016 (Diagramm unten), als ein Modell nur durch SFT trainiert wurde (gab das Modell tonne gute Beispiele), das Modell in der Lage war, die Leistung auf menschlicher Ebene zu erreichen, , aber niemals übertreffen .

Die gepunktete Linie repräsentiert Lee Sedols Leistung - der beste Go -Spieler der Welt.

Dies liegt daran RL ermöglichte Alphago jedoch, gegen sich selbst zu spielen, seine Strategien zu verfeinern und letztendlich das menschliche Fachwissen

(blaue Linie) zu übertreffen.

rl repräsentiert eine aufregende Grenze in KI - wo Modelle Strategien über die menschliche Vorstellungskraft hinaus untersuchen können, wenn wir sie auf einem vielfältigen und herausfordernden Problem der Probleme ausbilden, um die Denkstrategien zu verfeinern.

Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago rl Foundations recap

Lassen Sie uns die Schlüsselkomponenten eines typischen RL -Setups schnell wiederholen:

Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago
    Agent
  • - Der Lernende oder Entscheidungsträger. Es beobachtet die aktuelle Situation ( Zustand ), wählt eine Aktion aus und aktualisiert ihr Verhalten anhand des Ergebniss ( Belohnung ).
  • Umgebung
  • - Das externe System, in dem der Agent arbeitet.
  • Zustand
  • - Ein Schnappschuss der Umgebung in einem bestimmten Schritt t . Bei jedem Zeitstempel führt der Agent eine
Aktion

in der Umgebung durch, die den Zustand der Umgebung in eine neue verändert. Der Agent erhält außerdem Feedback, die angeben, wie gut oder schlecht die Aktion war. Dieses Feedback wird als

Belohnung

bezeichnet und in numerischer Form dargestellt. Eine positive Belohnung fördert dieses Verhalten, und eine negative Belohnung entmutigt es. Durch die Verwendung von Feedback aus verschiedenen Zuständen und Aktionen lernt der Agent allmählich die optimale Strategie, um die Gesamtbelohnung zu maximieren im Laufe der Zeit.

Richtlinie Die Richtlinie ist die Strategie des Agenten. Wenn der Agent einer guten Richtlinie folgt, wird er konsequent gute Entscheidungen treffen, was zu höheren Belohnungen in vielen Schritten führt.

In mathematischen Begriffen ist es eine Funktion, die die Wahrscheinlichkeit verschiedener Ausgänge für einen bestimmten Zustand bestimmt -

(πθ (a | s)) .

Wertfunktion

Eine Schätzung, wie gut es in einem bestimmten Zustand ist, wenn man die langfristige erwartete Belohnung berücksichtigt. Für eine LLM kann die Belohnung aus menschlichem Feedback oder einem Belohnungsmodell stammen.

Schauspieler-kritische Architektur

Es ist ein beliebtes RL -Setup, das zwei Komponenten kombiniert:

  1. Akteur - lernt und aktualisiert die -Politik (πθ) und entscheidet, welche Maßnahmen in jedem Zustand ergreifen sollen.
  2. Critic - Evaluiert die -Wergie -Funktion (v (s)), um dem Schauspieler Feedback zu geben, ob seine gewählten Aktionen zu guten Ergebnissen führen.

wie es funktioniert:

  • Der Actor wählt eine Aktion basierend auf seiner aktuellen Richtlinie aus.
  • Der
  • Kritiker bewertet das Ergebnis (Belohnung im nächsten Zustand) und aktualisiert seine Wertschätzung.
  • Das Feedback des Kritikers hilft dem Akteur, seine Richtlinie so zu verfeinern, dass zukünftige Maßnahmen zu höheren Belohnungen führen.
alles zusammen für llms

zusammenstellen

Der Status kann der aktuelle Text (Aufforderung oder Konversation) sein, und die Aktion kann das nächste Token sein, das generiert werden muss. Ein Belohnungsmodell (z. B. menschliches Feedback) sagt dem Modell, wie gut oder schlecht es generierten Text ist.

Die Richtlinie ist die Strategie des Modells zur Auswahl des nächsten Tokens, während die Wertschöpfungsfunktion schätzt, wie vorteilhaft der aktuelle Textkontext in Bezug auf letztendlich hochwertige Antworten ist.

Deepseek-R1 (veröffentlicht 22. Januar 2025)

Um die Bedeutung von RL hervorzuheben, lassen Sie uns Deepseek-R1, ein Argumentationsmodell, das eine erstklassige Leistung erzielt und gleichzeitig Open-Source-Leistungsverhältnisse erzielt. Das Papier führte zwei Modelle vor:

Deepseek-R1-Zero und Deepseek-R1.

    Deepseek-r1-Null wurde ausschließlich über groß angelegte RL ausgebildet und übersprungen beaufsichtigte Feinabstimmungen (SFT).
  • Deepseek-r1 baut darauf auf und befasst sich mit den auftretenden Herausforderungen.
Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago Lassen Sie uns in einige dieser Schlüsselpunkte eintauchen.

1. RL Algo: Gruppenrelative Richtlinienoptimierung (GRPO)

Ein wichtiger RL -Algorithmus für Spiele ist die Gruppenrelationsrichtlinienoptimierung (GRPO), eine Variante der weit verbreiteten populären proximalen Richtlinienoptimierung (PPO). Grpo wurde im Februar 2024 in der Papier von Deepseekmath eingeführt.

Warum Grpo über PPO?

PPO kämpft mit Argumentationsaufgaben durch:

  1. Abhängigkeit von einem Kritikermodell.
    hohe Rechenkosten, da RL -Pipelines erhebliche Ressourcen für die Bewertung und Optimierung der Antworten erfordern.
  2. Absolute Belohnungsbewertungen
  3. Wenn Sie sich auf eine absolute Belohnung verlassen-was bedeutet, dass es einen einzigen Standard oder eine Metrik gibt, um zu beurteilen, ob eine Antwort „gut“ oder „schlecht“ ist-kann es schwierig sein, die Nuancen offener, unterschiedlicher Aufgaben über verschiedene Argumentationsbereiche hinweg zu erfassen.
  4. .

Wie Grpo diese Herausforderungen ansprach:

grpo eliminiert das Kritikermodell unter Verwendung relative Bewertung

- Antworten werden in einer Gruppe verglichen und nicht nach einem festen Standard beurteilt.

Stellen Sie sich vor, die Schüler lösen ein Problem. Anstatt dass ein Lehrer sie einzeln bewertet, vergleichen sie Antworten und lernen voneinander. Im Laufe der Zeit konvergiert die Leistung in Richtung höherer Qualität.

Wie passt GRPO in den gesamten Trainingsprozess?

grpo modifiziert, wie der Verlust berechnet wird, während andere Trainingsschritte unverändert bleiben:

Daten sammeln (Abfragenantworten)
  1. - Für LLMs sind Abfragen wie Fragen - Die alte Richtlinie (älterer Schnappschuss des Modells) generiert mehrere Kandidatenantworten für jede Abfrage

    Belohnungen zuweisen
  2. - Jede Antwort in der Gruppe wird bewertet (die „Belohnung“).
  3. Berechnen Sie den Grpo -Verlust
  4. Traditionell werden Sie einen Verlust berechnen - was die Abweichung zwischen der Modellvorhersage und dem wahren Etikett zeigt. Schlimmer noch?
    Zurück -Ausbreitungsgradient -Abstieg

    - Die Rückverbreitung berechnet, wie jeder Parameter zu Verlust - Gradientenabstieg beigetragen hat, diese Parameter, um den Verlust
    - über viele Iterationen zu verringern, und verändert die neue Richtlinie die neue Richtlinie zu einer höheren Belohnung
    .

    Aktualisieren Sie die alte Richtlinie gelegentlich, um der neuen Richtlinie zu entsprechen
    .
  5. Dies aktualisiert die Grundlinie für die nächste Vergleichsrunde.
  6. 2. Denkkette (cot)
    traditionelles LLM-Training folgt vor der Training → SFT → RL. Deepseek-r1-nero
    übersprungenes SFT
    , sodass das Modell die COT-Argumentation direkt untersuchen kann.

    Wie Menschen, die durch eine schwierige Frage nachdenken, ermöglicht COT Modellen, Probleme in Zwischenschritte zu unterteilen und komplexe Argumentationsfunktionen zu steigern. Das O1-Modell von OpenAI nutzt dies auch, wie in seinem Bericht im September 2024 erwähnt: Die Leistung von O1 verbessert sich mit mehr RL (Zug-Zeit-Rechenrechnung) und mehr Argumentationszeit (Testzeit-Rechenumfang).

    Deepseek-r1-Null zeigte reflektierende Tendenzen, die seine Argumentation autonom verfeinern.

    Ein Schlüsseldiagramm (unten) im Artikel zeigte während des Trainings ein erhöhtes Denken, was zu längeren (mehr Token), detaillierteren und besseren Antworten führte.

    Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

    Ohne explizite Programmierung begann es, vergangene Argumentationsschritte zu überdenken und die Genauigkeit zu verbessern. Dies unterstreicht die Gedankenkette als eine aufstrebende Eigenschaft des RL-Trainings.

    Das Modell hatte auch einen „AHA -Moment“ (unten) - ein faszinierendes Beispiel dafür, wie RL zu unerwarteten und raffinierten Ergebnissen führen kann.

    Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

    HINWEIS: Im Gegensatz zu Deepseek-R1 zeigt Openai in O1 keine vollständigen Denkketten, da sie über ein Destillationsrisiko besorgt sind-bei dem jemand hereinkommt und versucht, diese Argumentationsspuren nachzuahmen und einen Großteil der Argumentationsleistung wiederzugewinnen, indem sie nur nachahmt. Stattdessen nur Zusammenfassungen dieser Ketten von Gedanken.

    Verstärkungslernen mit menschlichem Feedback (RLHF)

    Für Aufgaben mit überprüfbaren Ausgängen (z. B. mathematische Probleme, sachliche Q & A) können AI -Antworten leicht bewertet werden. Aber was ist mit Bereichen wie Summarisierung oder kreativem Schreiben, wo es keine einzige „richtige“ Antwort gibt?

    Hier kommt das menschliche Feedback ins Spiel - aber naive RL -Ansätze sind unvergleichlich.

    Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

    Schauen wir uns den naiven Ansatz mit einigen willkürlichen Zahlen an.

    Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

    Das sind eine Milliarde menschliche Bewertungen benötigt! Dies ist zu kostspielig, langsam und unvergleichlich. Eine intelligentere Lösung besteht daher darin, ein KI -Belohnungsmodell zu schulen, um menschliche Vorlieben zu erlernen und die menschliche Anstrengung dramatisch zu verringern.

    Ranking -Antworten ist auch einfacher und intuitiver als absolute Bewertung.

    Wie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago

    Upsides von RLHF

    • kann auf jede Domäne angewendet werden, einschließlich kreatives Schreiben, Poesie, Zusammenfassung und anderen offenen Aufgaben.
    • Ranking -Ausgänge ist für menschliche Lager viel einfacher als die Erzeugung kreativer Ausgänge selbst.

    Nachteile von rlhf

    • Das Belohnungsmodell ist eine Annäherung - es spiegelt möglicherweise die menschlichen Vorlieben nicht perfekt wider.
    • rl ist gut im Spielen des Belohnungsmodell

    Beachten Sie, dass RLHF nicht dasselbe ist wie das herkömmliche RL. Für empirische, überprüfbare Domänen (z. B. Mathematik, Codierung) kann RL auf unbestimmte Zeit ausgeführt und neuartige Strategien entdecken. RLHF hingegen ähnelt eher ein feinabstimmiger Schritt, um Modelle mit menschlichen Vorlieben auszurichten. Schlussfolgerung

    Und das ist ein Wrap! Ich hoffe, Sie haben Teil 2 genossen? Wenn Sie Teil 1 noch nicht gelesen haben, sehen Sie es sich hier an.

    Haben Sie Fragen oder Ideen für das, was ich als nächstes behandeln sollte? Lass sie in die Kommentare fallen - ich würde gerne deine Gedanken hören. Wir sehen uns im nächsten Artikel!

Das obige ist der detaillierte Inhalt vonWie LLMs funktioniert: Verstärkungslernen, RLHF, Deepseek R1, OpenAI O1, Alphago. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial
1664
14
PHP-Tutorial
1268
29
C#-Tutorial
1248
24
Erste Schritte mit Meta Lama 3.2 - Analytics Vidhya Erste Schritte mit Meta Lama 3.2 - Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

10 generative AI -Codierungsweiterungen im VS -Code, die Sie untersuchen müssen 10 generative AI -Codierungsweiterungen im VS -Code, die Sie untersuchen müssen Apr 13, 2025 am 01:14 AM

Hey da, codieren Ninja! Welche Codierungsaufgaben haben Sie für den Tag geplant? Bevor Sie weiter in diesen Blog eintauchen, möchte ich, dass Sie über all Ihre Coding-Leiden nachdenken-die Auflistung auflisten diese auf. Erledigt? - Lassen Sie &#8217

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehr AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehr Apr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

GPT-4O gegen OpenAI O1: Ist das neue OpenAI-Modell den Hype wert? GPT-4O gegen OpenAI O1: Ist das neue OpenAI-Modell den Hype wert? Apr 13, 2025 am 10:18 AM

Einführung OpenAI hat sein neues Modell auf der Grundlage der mit Spannung erwarteten „Strawberry“ -Scharchitektur veröffentlicht. Dieses innovative Modell, bekannt als O1

Ein umfassender Leitfaden zu Vision Language Models (VLMs) Ein umfassender Leitfaden zu Vision Language Models (VLMs) Apr 12, 2025 am 11:58 AM

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

3 Methoden zum Ausführen von LLAMA 3.2 - Analytics Vidhya 3 Methoden zum Ausführen von LLAMA 3.2 - Analytics Vidhya Apr 11, 2025 am 11:56 AM

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Wie füge ich eine Spalte in SQL hinzu? - Analytics Vidhya Wie füge ich eine Spalte in SQL hinzu? - Analytics Vidhya Apr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

Pixtral -12b: Mistral AIs erstes multimodales Modell - Analytics Vidhya Pixtral -12b: Mistral AIs erstes multimodales Modell - Analytics Vidhya Apr 13, 2025 am 11:20 AM

Einführung Mistral hat sein erstes multimodales Modell veröffentlicht, nämlich den Pixtral-12b-2409. Dieses Modell basiert auf dem 12 -Milliarden -Parameter von Mistral, NEMO 12b. Was unterscheidet dieses Modell? Es kann jetzt sowohl Bilder als auch Tex aufnehmen

See all articles