02 – Wie LLMs lernen – Fehler, Optimierung und Kontrolle im Maschinenlernen

Teil 2 der Serie: Die Mathematik hinter großen Sprachmodellen verständlich erklärt

13 Juli 2025
Wolf galetzki datista speaker

Wolf Galetzki

Datista® – Growth through Data & AI

Mathematik der sprachmodelle
Teil 2 von 20 der Serie: Die Mathematik hinter LLMs

In Teil 1 dieser Serie haben wir gesehen, wie große Sprachmodelle (LLMs) Sprache mathematisch verarbeiten – durch Tokenisierung, Embeddings und die Transformer-Architektur. Doch das allein macht noch kein lernfähiges System.

Die entscheidende Frage lautet: Wie lernt ein Modell, bessere Vorhersagen zu treffen?
Wie kann es sich schrittweise verbessern, obwohl es keine Erklärungen erhält – nur riesige Mengen an Beispielen?

In diesem Artikel werfen wir einen Blick auf das mathematische Herzstück des Lernens in LLMs: Gradient Descent, Backpropagation, Optimierung und Entropiesteuerung.

Lernen durch Fehler: Das Grundprinzip

Das Trainingsverfahren von LLMs basiert auf einem einfachen Prinzip:
Fehler machen – und daraus lernen.

Das Modell erhält einen Textanfang und versucht vorherzusagen, welches Wort als Nächstes folgt. Liegt es daneben, wird der Fehler berechnet. Dieser Fehler dient nicht der Bewertung, sondern der Verbesserung.

Beispiel:
Eingabe: „Das Meeting wurde kurzfristig …“
Modell sagt: „verlängert“
Tatsächlich: „abgesagt“
→ Differenz = Lernsignal

Das Ziel des Lernprozesses: Die Vorhersagen so anpassen, dass der Fehler über viele Beispiele hinweg möglichst klein wird.

Gradient Descent: Lernen durch mathematischen Abstieg

Um den Fehler zu reduzieren, nutzt das Modell ein Verfahren namens Gradient Descent – auf Deutsch: Gradientenabstieg.

Bildliche Vorstellung

Stell dir vor, du möchtest die ideale Einstellung für einen Laserdrucker finden.
Du probierst nacheinander verschiedene Parameter aus – etwa Auflösung, Farbprofil und Papierformat – und beobachtest, ob das Druckbild besser oder schlechter wird.
Mit jedem Durchlauf kommst du dem optimalen Ergebnis näher.

So funktioniert Gradient Descent:
Das Modell „spürt“, wie sich kleine Änderungen auf den Fehler auswirken – und passt seine internen Werte (Parameter) entsprechend an.

Technisch erklärt

  • Die Kostenfunktion misst, wie falsch die aktuelle Vorhersage ist.
  • Der Gradient gibt an, in welche Richtung der Fehler sinkt.
  • Eine Lernrate bestimmt, wie groß die Anpassung pro Schritt ist.
  • Ziel ist es, ein Minimum der Fehlerfunktion zu finden.
BegriffBedeutung
KostenfunktionMisst den Gesamtfehler
GradientZeigt Richtung der Optimierung
Lernrate (η)Schrittweite beim Lernen
MinimumStelle mit geringstem Fehler

Backpropagation: Fehler rückwärts verteilen

Gradient Descent ist nur dann wirksam, wenn das Modell weiß, welche seiner Entscheidungen zum Fehler beigetragen haben.
Hier kommt Backpropagation ins Spiel.

Vergleich

Stell dir vor, du bekommst eine fehlerhafte Excel-Auswertung.
Du gehst Formel für Formel rückwärts durch jede Berechnung, um herauszufinden, wo der Fehler entstanden ist.

Genauso funktioniert Backpropagation:
Der Fehler wird vom Ausgang zurück durch alle Schichten des neuronalen Netzes geschickt. In jeder Schicht wird berechnet, wie stark sie zum Gesamtfehler beigetragen hat.

→ Diese Information wird genutzt, um gezielt genau dort nachzuschärfen, wo es nötig ist.

Adam & Co: Warum einfache Optimierung nicht ausreicht

Gradient Descent funktioniert – aber es hat Schwächen:

  • In flachen Bereichen lernt es langsam.
  • In komplexen Landschaften „springt“ es unkontrolliert.
  • Es behandelt alle Parameter gleich, obwohl manche sensibler sind als andere.

Deshalb setzt man in der Praxis auf Optimierungsverfahren wie den Adam Optimizer (Adaptive Moment Estimation).

Was macht Adam anders?

  • Er merkt sich frühere Lernschritte (Momentum)
  • Er passt die Lernrate individuell pro Parameter an
  • Er verhindert zu große oder zu kleine Updates

Analogie:
Stell dir vor, du nutzt eine Autokorrektur, die sich an deine häufigsten Tippfehler erinnert. Je öfter du denselben Fehler machst, desto gezielter greift sie ein. Adam funktioniert ähnlich – nur mathematisch.

MerkmalAdam-Optimizer
GeschwindigkeitHoch
StabilitätSehr gut
ParameterabhängigJa
In LLMs üblich seitca. 2015

Entropie und Temperatur: Kontrolle über Zufall

Sprachmodelle erzeugen Vorhersagen nicht deterministisch.
Das bedeutet: Sie berechnen Wahrscheinlichkeiten – und wählen dann aus. Dieser Schritt kann gesteuert werden.

Entropie erklärt

Die Entropie beschreibt, wie „unsicher“ oder breit verteilt die Wahrscheinlichkeiten sind.

  • Niedrige Entropie: ein klares Favoritenwort
  • Hohe Entropie: viele mögliche Wörter mit ähnlicher Wahrscheinlichkeit

Temperatur als Steuerinstrument

Der Temperaturwert beeinflusst direkt die Entropie:

TemperaturVerhalten
0.2Sehr sicher, sehr vorhersagbar
0.7Natürlich und ausgeglichen
1.2Kreativ, teilweise überraschend

Technisch verändert die Temperatur die Gewichtung der Wahrscheinlichkeiten, bevor das Modell auswählt. Je höher die Temperatur, desto flacher die Verteilung – mehr Überraschung, mehr Risiko.

Beispiel: Temperatur im Text

Satzanfang: „Ich habe eine neue Idee für unser …“

TemperaturMögliche Ausgabe
0.2„Produkt“
0.7„Jahresziel“
1.2„digitales Raumkonzept für hybride Teams“

Je nach Anwendung ist eine andere Temperatur sinnvoll:

  • Für technische Dokumente: niedrig
  • Für kreative Prozesse: eher höher
  • Für Dialogsysteme: abgestimmt je nach Kontext

Fazit & Ausblick

Sprachmodelle lernen, indem sie Fehler erkennen, rückverfolgen und korrigieren – schrittweise und auf Basis klarer mathematischer Prinzipien.

  • Gradient Descent senkt den Fehler über viele kleine Schritte
  • Backpropagation verteilt den Fehler auf alle Modellschichten
  • Adam beschleunigt und stabilisiert das Lernen
  • Temperatur steuert, wie „offen“ oder „präzise“ das Modell bei der Ausgabe sein soll

In Teil 3 der Serie geht es um weitere Aspekte des Modellverhaltens:

  • Wie vermeidet man, dass Modelle „übertrainieren“ (Overfitting)?
  • Wie speichern Modelle Kontext über längere Texte hinweg?
  • Welche Rolle spielt Regularisierung für Robustheit?

FAQ – Häufige Fragen

Was ist Gradient Descent?
Ein mathematisches Verfahren, mit dem ein Modell Schritt für Schritt die optimalen Parameter findet – wie ein kontrollierter Abstieg ins Fehler-Minimum.

Wie funktioniert Backpropagation?
Die Methode berechnet rückwärts durch das Netzwerk, welcher Teil für welchen Anteil des Fehlers verantwortlich ist – und ermöglicht so gezielte Anpassungen.

Warum beeinflusst die Temperatur die Ausgabe?
Weil sie steuert, wie stark das Modell von der Wahrscheinlichkeitsverteilung „abweichen“ darf – je höher die Temperatur, desto offener das Antwortverhalten.

Wolf Galetzki

Berät Unternehmen bei der Einführung von KI und Automatisierung. Als Gründer von Datista liegt sein Fokus auf datensouveränen, anpassbaren Lösungen.

Wolf galetzki datista speaker