In Teil 1 dieser Serie haben wir gesehen, wie große Sprachmodelle (LLMs) Sprache mathematisch verarbeiten – durch Tokenisierung, Embeddings und die Transformer-Architektur. Doch das allein macht noch kein lernfähiges System.
Die entscheidende Frage lautet: Wie lernt ein Modell, bessere Vorhersagen zu treffen?
Wie kann es sich schrittweise verbessern, obwohl es keine Erklärungen erhält – nur riesige Mengen an Beispielen?
In diesem Artikel werfen wir einen Blick auf das mathematische Herzstück des Lernens in LLMs: Gradient Descent, Backpropagation, Optimierung und Entropiesteuerung.
Lernen durch Fehler: Das Grundprinzip
Das Trainingsverfahren von LLMs basiert auf einem einfachen Prinzip:
Fehler machen – und daraus lernen.
Das Modell erhält einen Textanfang und versucht vorherzusagen, welches Wort als Nächstes folgt. Liegt es daneben, wird der Fehler berechnet. Dieser Fehler dient nicht der Bewertung, sondern der Verbesserung.
Beispiel:
Eingabe: „Das Meeting wurde kurzfristig …“
Modell sagt: „verlängert“
Tatsächlich: „abgesagt“
→ Differenz = Lernsignal
Das Ziel des Lernprozesses: Die Vorhersagen so anpassen, dass der Fehler über viele Beispiele hinweg möglichst klein wird.
Gradient Descent: Lernen durch mathematischen Abstieg
Um den Fehler zu reduzieren, nutzt das Modell ein Verfahren namens Gradient Descent – auf Deutsch: Gradientenabstieg.
Bildliche Vorstellung
Stell dir vor, du möchtest die ideale Einstellung für einen Laserdrucker finden.
Du probierst nacheinander verschiedene Parameter aus – etwa Auflösung, Farbprofil und Papierformat – und beobachtest, ob das Druckbild besser oder schlechter wird.
Mit jedem Durchlauf kommst du dem optimalen Ergebnis näher.
So funktioniert Gradient Descent:
Das Modell „spürt“, wie sich kleine Änderungen auf den Fehler auswirken – und passt seine internen Werte (Parameter) entsprechend an.
Technisch erklärt
- Die Kostenfunktion misst, wie falsch die aktuelle Vorhersage ist.
- Der Gradient gibt an, in welche Richtung der Fehler sinkt.
- Eine Lernrate bestimmt, wie groß die Anpassung pro Schritt ist.
- Ziel ist es, ein Minimum der Fehlerfunktion zu finden.
Begriff | Bedeutung |
---|---|
Kostenfunktion | Misst den Gesamtfehler |
Gradient | Zeigt Richtung der Optimierung |
Lernrate (η) | Schrittweite beim Lernen |
Minimum | Stelle mit geringstem Fehler |
Backpropagation: Fehler rückwärts verteilen
Gradient Descent ist nur dann wirksam, wenn das Modell weiß, welche seiner Entscheidungen zum Fehler beigetragen haben.
Hier kommt Backpropagation ins Spiel.
Vergleich
Stell dir vor, du bekommst eine fehlerhafte Excel-Auswertung.
Du gehst Formel für Formel rückwärts durch jede Berechnung, um herauszufinden, wo der Fehler entstanden ist.
Genauso funktioniert Backpropagation:
Der Fehler wird vom Ausgang zurück durch alle Schichten des neuronalen Netzes geschickt. In jeder Schicht wird berechnet, wie stark sie zum Gesamtfehler beigetragen hat.
→ Diese Information wird genutzt, um gezielt genau dort nachzuschärfen, wo es nötig ist.
Adam & Co: Warum einfache Optimierung nicht ausreicht
Gradient Descent funktioniert – aber es hat Schwächen:
- In flachen Bereichen lernt es langsam.
- In komplexen Landschaften „springt“ es unkontrolliert.
- Es behandelt alle Parameter gleich, obwohl manche sensibler sind als andere.
Deshalb setzt man in der Praxis auf Optimierungsverfahren wie den Adam Optimizer (Adaptive Moment Estimation).
Was macht Adam anders?
- Er merkt sich frühere Lernschritte (Momentum)
- Er passt die Lernrate individuell pro Parameter an
- Er verhindert zu große oder zu kleine Updates
Analogie:
Stell dir vor, du nutzt eine Autokorrektur, die sich an deine häufigsten Tippfehler erinnert. Je öfter du denselben Fehler machst, desto gezielter greift sie ein. Adam funktioniert ähnlich – nur mathematisch.
Merkmal | Adam-Optimizer |
---|---|
Geschwindigkeit | Hoch |
Stabilität | Sehr gut |
Parameterabhängig | Ja |
In LLMs üblich seit | ca. 2015 |
Entropie und Temperatur: Kontrolle über Zufall
Sprachmodelle erzeugen Vorhersagen nicht deterministisch.
Das bedeutet: Sie berechnen Wahrscheinlichkeiten – und wählen dann aus. Dieser Schritt kann gesteuert werden.
Entropie erklärt
Die Entropie beschreibt, wie „unsicher“ oder breit verteilt die Wahrscheinlichkeiten sind.
- Niedrige Entropie: ein klares Favoritenwort
- Hohe Entropie: viele mögliche Wörter mit ähnlicher Wahrscheinlichkeit
Temperatur als Steuerinstrument
Der Temperaturwert beeinflusst direkt die Entropie:
Temperatur | Verhalten |
---|---|
0.2 | Sehr sicher, sehr vorhersagbar |
0.7 | Natürlich und ausgeglichen |
1.2 | Kreativ, teilweise überraschend |
Technisch verändert die Temperatur die Gewichtung der Wahrscheinlichkeiten, bevor das Modell auswählt. Je höher die Temperatur, desto flacher die Verteilung – mehr Überraschung, mehr Risiko.
Beispiel: Temperatur im Text
Satzanfang: „Ich habe eine neue Idee für unser …“
Temperatur | Mögliche Ausgabe |
---|---|
0.2 | „Produkt“ |
0.7 | „Jahresziel“ |
1.2 | „digitales Raumkonzept für hybride Teams“ |
Je nach Anwendung ist eine andere Temperatur sinnvoll:
- Für technische Dokumente: niedrig
- Für kreative Prozesse: eher höher
- Für Dialogsysteme: abgestimmt je nach Kontext
Fazit & Ausblick
Sprachmodelle lernen, indem sie Fehler erkennen, rückverfolgen und korrigieren – schrittweise und auf Basis klarer mathematischer Prinzipien.
- Gradient Descent senkt den Fehler über viele kleine Schritte
- Backpropagation verteilt den Fehler auf alle Modellschichten
- Adam beschleunigt und stabilisiert das Lernen
- Temperatur steuert, wie „offen“ oder „präzise“ das Modell bei der Ausgabe sein soll
In Teil 3 der Serie geht es um weitere Aspekte des Modellverhaltens:
- Wie vermeidet man, dass Modelle „übertrainieren“ (Overfitting)?
- Wie speichern Modelle Kontext über längere Texte hinweg?
- Welche Rolle spielt Regularisierung für Robustheit?
FAQ – Häufige Fragen
Was ist Gradient Descent?
Ein mathematisches Verfahren, mit dem ein Modell Schritt für Schritt die optimalen Parameter findet – wie ein kontrollierter Abstieg ins Fehler-Minimum.
Wie funktioniert Backpropagation?
Die Methode berechnet rückwärts durch das Netzwerk, welcher Teil für welchen Anteil des Fehlers verantwortlich ist – und ermöglicht so gezielte Anpassungen.
Warum beeinflusst die Temperatur die Ausgabe?
Weil sie steuert, wie stark das Modell von der Wahrscheinlichkeitsverteilung „abweichen“ darf – je höher die Temperatur, desto offener das Antwortverhalten.