Im zweiten Teil dieser Serie haben wir gesehen, wie große Sprachmodelle lernen:
Sie passen ihre Parameter über Milliarden von Beispielen an – mithilfe von Fehlerberechnung, Backpropagation und Optimierungsmethoden wie Adam.
Doch beim Trainieren großer Modelle stellen sich zwei entscheidende Herausforderungen:
- Wie bleibt das Modell verlässlich, ohne sich zu „verrennen“?
- Wie behält es bei langen Texten den Überblick – und vergisst nicht, worum es geht?
In diesem Teil geht es um diese beiden zentralen Fragen:
Regularisierung und Kontextverarbeitung.
Overfitting: Wenn Modelle zu viel lernen
LLMs haben viele Milliarden Parameter. Das macht sie leistungsfähig – aber auch anfällig.
Wenn ein Modell zu genau auf die Trainingsdaten abgestimmt ist, spricht man von Overfitting:
Es merkt sich Einzelheiten, anstatt die dahinterliegenden Muster zu verstehen.
Beispiel:
Ein Modell sieht 100 Mal den Satz „Die Hauptstadt von Frankreich ist Paris.“
Wenn es übertrainiert ist, könnte es „Paris“ auch dann vorhersagen, wenn die Frage nach Spanien oder Italien gestellt wird.
Overfitting führt zu schlechten Ergebnissen auf neuen, unbekannten Daten.
Es ist wie ein Schüler, der die Antworten auswendig gelernt hat – aber die Fragen kaum versteht.
Regularisierung: Wie Modelle verlässlich bleiben
Damit Modelle nicht überfitten, verwendet man Regularisierungstechniken.
Diese Methoden sorgen dafür, dass ein Modell allgemein gültige Strukturen erkennt – und nicht nur Muster in den Trainingsdaten.
Dropout
Eine der bekanntesten Techniken ist Dropout.
Dabei werden während des Trainings zufällig einige Neuronen deaktiviert. Das Modell wird gezwungen, robuster zu lernen – weil es sich nicht auf bestimmte Pfade verlassen kann.
Analogie:
Du übst eine Präsentation – aber jedes Mal fehlen ein paar Folien. Du wirst besser darin, flexibel zu reagieren und den roten Faden trotzdem zu halten.
Gewichtsnormierung (Weight Decay)
Eine weitere Technik ist Weight Decay:
Hier werden zu große Gewichtswerte leicht bestraft. Das verhindert extreme Anpassungen und sorgt für „sanfteres“ Lernen.
Methode | Wirkung |
---|---|
Dropout | Verhindert zu starke Abhängigkeit einzelner Neuronen |
Weight Decay | Reduziert Überanpassung der Gewichte |
Data Augmentation | Erweitert das Training durch Varianten der Daten |
Nutzen der Regularisierung
- Bessere Generalisierung
- Höhere Stabilität bei unbekannten Eingaben
- Weniger Risiko von Halluzinationen oder falscher Sicherheit
Kontextfenster: Wie viel kann sich ein LLM merken?
Ein zentrales Thema bei Sprachmodellen ist die Frage:
Wie viel Text kann ein Modell gleichzeitig verarbeiten?
Die Antwort hängt vom sogenannten Kontextfenster ab.
Das ist die maximale Anzahl an Tokens, die das Modell gleichzeitig „im Blick“ hat.
Modell | Kontextfenster (Tokens) |
---|---|
GPT-2 | 1.024 |
GPT-3 | 2.048 |
GPT-4 (turbo) | bis zu 128.000 |
1 Token ≈ 0,75 Wörter in Deutsch
128.000 Tokens ≈ etwa 300 DIN-A4-Seiten
Aber: Selbst bei großen Fenstern kann ein Modell nicht alle Informationen gleichwertig gewichten. Es neigt dazu, den Anfang und das Ende eines Textes stärker zu berücksichtigen als die Mitte.
Positionales Kodieren: Orientierung in der Reihenfolge
Ein Transformer verarbeitet alle Tokens gleichzeitig – das ist effizient, aber führt zu einem Problem:
Wörter verlieren ihre Reihenfolge.
Deshalb wird jedem Token eine Positionsinformation hinzugefügt – z. B. durch Sinus- und Kosinusfunktionen, sogenannte positional encodings.
Beispiel:
Die Sätze „Der Hund beißt den Mann“ und „Der Mann beißt den Hund“ bestehen aus denselben Wörtern – aber die Positionen sind entscheidend.
Die Positionskodierung ermöglicht es dem Modell, semantische Unterschiede basierend auf der Reihenfolge zu erkennen.
Attention & Langzeitbezug
Das Transformer-Modell verwendet Self-Attention, um relevante Informationen aus dem Kontext herauszufiltern.
Dabei berechnet es, welche Tokens wichtig füreinander sind.
Aber: Selbst Attention ist endlich. Je größer das Kontextfenster, desto mehr verwässert sich die Relevanzverteilung.
Lösungsideen für mehr Kontext
Um dieses Problem zu umgehen, arbeiten neue Ansätze mit:
- Rekurrentem Speichern (Memory-Augmented Attention)
- Segmentierung in Chunks mit Zusammenfassungen
- Retrieval-Augmented Generation (RAG) – das Modell zieht bei Bedarf externe Inhalte hinzu
Retrieval-Augmented Generation (RAG): Modell + Suchmaschine
Ein vielversprechender Weg zur Kontexterweiterung ist RAG:
Das Modell wird nicht allein auf sein Training verlassen, sondern kann externe Texte „nachschlagen“.
Beispiel:
Statt sich an 30 Seiten auswendig zu erinnern, sucht das Modell aktiv nach passenden Abschnitten – ähnlich wie ein Mensch, der etwas nachliest.
Diese Methode ist besonders nützlich für Anwendungen mit:
- juristischen Dokumenten
- technischen Spezifikationen
- großen Wissensdatenbanken
Fazit & Ausblick
Damit LLMs nicht nur leistungsfähig, sondern auch zuverlässig sind, braucht es mehr als reines Lernen:
- Regularisierung verhindert Übertraining
- Positionskodierung erhält die Satzstruktur
- Attention-Mechanismen fokussieren Wichtiges
- Kontextfenster und RAG erweitern das Gedächtnis
In Teil 4 der Serie geht es um das nächste große Thema:
Was passiert beim Pretraining vs. Finetuning?
Und: Wie unterscheiden sich Sprachmodelle je nach Zielsetzung – z. B. bei Chatbots, Assistenzsystemen oder Analysemodellen?
FAQ – Häufige Fragen
Was ist Overfitting?
Ein Modell passt sich zu stark an Trainingsdaten an – es merkt sich Einzelheiten, statt Regeln zu lernen.
Was bewirkt Dropout?
Es zwingt das Modell, robuster zu lernen, indem es zufällig Teile des Netzwerks deaktiviert.
Was ist ein Kontextfenster?
Die maximale Anzahl an Tokens, die das Modell gleichzeitig verarbeiten kann – entscheidend für Verständnisspanne.
Wie funktioniert RAG?
Das Modell kombiniert gespeichertes Wissen mit einer aktiven Suche in externen Texten – ähnlich einer eingebauten Bibliothek.