In Teil 4 der Serie hast du erfahren, wie große Sprachmodelle trainiert und angepasst werden – vom allgemeinen Sprachgefühl bis zur spezialisierten Anwendungslogik.
Doch was passiert im Inneren eines LLMs, wenn du eine Eingabe machst?
In diesem Artikel schauen wir in die Architektur eines modernen Sprachmodells – insbesondere auf das Transformer-Modell, das heute die Grundlage fast aller leistungsfähigen LLMs bildet.
Wir erklären, wie Attention funktioniert, wozu Residualverbindungen nötig sind und warum Feedforward-Netze und Layer Normalization wichtige Rollen spielen.
Der Transformer – Grundgerüst moderner LLMs
Der Transformer wurde 2017 im Paper “Attention is All You Need” vorgestellt und hat das Feld der Sprachverarbeitung revolutioniert.
Im Gegensatz zu früheren Modellen wie RNNs oder LSTMs verarbeitet der Transformer den gesamten Eingabetext gleichzeitig – nicht sequenziell.
Vorteile des Transformer-Modells
- Parallelisierung: Texte können schneller verarbeitet werden
- Langer Kontext: Self-Attention ermöglicht das Erfassen weit entfernter Zusammenhänge
- Modularität: Leicht skalierbar durch wiederholbare Schichten
Merkmal | Transformer-Architektur |
---|---|
Entwickelt von | Google (2017) |
Hauptidee | Attention statt Wiederholungen |
Bausteine | Attention, Feedforward, Norm, Residual |
Anwendungen | GPT, BERT, Claude, Gemini, LLaMA etc. |
Self-Attention: Fokus auf das Wesentliche
Self-Attention ist das Herzstück des Transformers.
Es erlaubt dem Modell, für jedes Wort zu bestimmen, wie wichtig andere Wörter im selben Satz sind.
Beispiel:
Satz: „Der Hund, den die Katze jagte, rannte weg.“
Um zu verstehen, wer wegrennt, muss das Modell erkennen, dass „Hund“ das Subjekt von „rannte“ ist – trotz der Unterbrechung durch den Nebensatz.
Wie funktioniert Attention technisch?
Jedes Token wird in drei Vektoren umgerechnet:
- Query (Frage)
- Key (Schlüssel)
- Value (Inhalt)
Die Querys eines Tokens werden mit den Keys aller anderen Tokens verglichen. Daraus entstehen Gewichtungen, mit denen die Values gemischt werden – je nachdem, was gerade wichtig ist.
Komponente | Aufgabe |
---|---|
Query | Was suche ich? |
Key | Was biete ich an? |
Value | Welche Information trage ich? |
Das Ergebnis: Jedes Wort wird neu dargestellt – als gewichtete Summe aller anderen Wörter, abhängig vom Kontext.
Mathematische Intuition zur Attention
Für mathematisch Interessierte (in vereinfachter Form):
textKopierenAttention(Q, K, V) = softmax(Q · Kᵀ / √dₖ) · V
Q · Kᵀ
: Ähnlichkeitsmaß zwischen Wörtern√dₖ
: Normierungsfaktor zur Stabilisierungsoftmax(...)
: Sorgt für Wahrscheinlichkeitsverteilung· V
: Gewichtet die Bedeutungsvektoren entsprechend
Das Ergebnis ist eine neue Darstellung jedes Tokens, abhängig vom gesamten Satzkontext.
Multi-Head Attention: Unterschiedliche Blickwinkel
Self-Attention kann nicht alles gleichzeitig erfassen.
Deshalb wird sie parallel in mehreren „Köpfen“ (Heads) ausgeführt – jede mit anderem Fokus.
Beispiel:
Ein Head fokussiert auf grammatische Struktur, ein anderer auf semantische Nähe, ein dritter auf Zahlen oder Zeitbezüge.
Diese unterschiedlichen Perspektiven werden anschließend zusammengeführt.
Baustein | Funktion |
---|---|
Multi-Head Attention | Parallele Fokusbereiche pro Token |
Concatenation | Zusammenführung der Blickwinkel |
Lineare Projektion | Rückübersetzung in nutzbare Vektorstruktur |
Feedforward-Netzwerke: Nachdenken nach dem Zuhören
Nach der Attention folgt ein Feedforward-Netzwerk.
Es besteht meist aus zwei Schichten mit einer Aktivierungsfunktion dazwischen (z. B. GELU oder ReLU).
Ziel: Transformation der Informationen – eine Art lokales „Nachdenken“, nachdem die Aufmerksamkeit verteilt wurde.
Die gleiche Architektur wird für jedes Token einzeln angewendet – mit denselben Gewichten. Das spart Rechenzeit.
Residualverbindungen & Layer Normalization
Jede Attention-Schicht wird durch zwei wichtige Prinzipien stabilisiert:
1. Residualverbindung
Statt nur das Ergebnis zu übernehmen, wird das Originalsignal hinzuaddiert – ähnlich einer Rückversicherung:
textKopierenAusgabe = Eingabe + Verarbeitung(Eingabe)
→ Das verbessert die Stabilität beim Training und sorgt dafür, dass Informationen nicht verloren gehen.
2. Layer Normalization
Vor der Weiterverarbeitung wird der Vektor normalisiert – also seine Werte auf ein stabiles Maß gebracht.
→ Das hilft dem Modell, schneller und verlässlicher zu lernen.
Wiederholung in Schichten
Ein vollständiger Transformer besteht aus mehreren dieser Blöcke – je nach Modellgröße:
Modellname | Anzahl Transformer-Schichten |
---|---|
GPT-2 | 12 |
GPT-3 | 96 |
GPT-4 (geschätzt) | >100 |
LLaMA 3 | 32 – 70 (je nach Modellgröße) |
Claude 3 Opus | nicht öffentlich |
Gemini 1.5 | unbekannt, aber >32 |
Je tiefer ein Modell, desto komplexere Zusammenhänge kann es erfassen – aber desto größer auch die Rechenlast.
Fazit & Ausblick
Das Transformer-Modell hat sich als universelle Architektur für Sprache, Code, Bilder und mehr etabliert.
- Self-Attention erkennt relevante Zusammenhänge im Kontext
- Multi-Head Attention erlaubt unterschiedliche Sichtweisen
- Feedforward-Schichten verarbeiten Inhalte lokal weiter
- Residuals und Normierung sichern Stabilität beim Lernen
In Teil 6 der Serie klären wir:
Wie unterscheiden sich Sprachmodelle, wenn sie spezifische Aufgaben übernehmen – z. B. für Programmcode, juristische Beratung oder Multimodalität?
Und wie beeinflussen diese Unterschiede Architektur, Training und Anwendung?
FAQ – Häufige Fragen
Was ist Attention?
Ein Verfahren, das bestimmt, welche Wörter im Kontext wichtig für ein anderes sind – ermöglicht sinnvolles Verständnis ganzer Sätze.
Was ist der Unterschied zwischen Feedforward und Attention?
Attention verarbeitet den Kontext, Feedforward verarbeitet das aktuelle Token einzeln weiter.
Wozu dienen Residualverbindungen?
Sie helfen, Informationen über viele Schichten hinweg zu erhalten und erleichtern das Training großer Modelle.
Warum Multi-Head Attention?
Weil ein einzelner Fokus nicht reicht – mehrere „Blickwinkel“ erlauben differenziertere Interpretationen.