05 – Das Innenleben von LLMs: Transformer, Attention & Residuals einfach erklärt – Datista®

In Teil 4 der Serie hast du erfahren, wie große Sprachmodelle trainiert und angepasst werden – vom allgemeinen Sprachgefühl bis zur spezialisierten Anwendungslogik.

Doch was passiert im Inneren eines LLMs, wenn du eine Eingabe machst?

In diesem Artikel schauen wir in die Architektur eines modernen Sprachmodells – insbesondere auf das Transformer-Modell, das heute die Grundlage fast aller leistungsfähigen LLMs bildet.

Wir erklären, wie Attention funktioniert, wozu Residualverbindungen nötig sind und warum Feedforward-Netze und Layer Normalization wichtige Rollen spielen.

Der Transformer – Grundgerüst moderner LLMs

Der Transformer wurde 2017 im Paper “Attention is All You Need” vorgestellt und hat das Feld der Sprachverarbeitung revolutioniert.
Im Gegensatz zu früheren Modellen wie RNNs oder LSTMs verarbeitet der Transformer den gesamten Eingabetext gleichzeitig – nicht sequenziell.

Vorteile des Transformer-Modells

Parallelisierung: Texte können schneller verarbeitet werden
Langer Kontext: Self-Attention ermöglicht das Erfassen weit entfernter Zusammenhänge
Modularität: Leicht skalierbar durch wiederholbare Schichten

Merkmal	Transformer-Architektur
Entwickelt von	Google (2017)
Hauptidee	Attention statt Wiederholungen
Bausteine	Attention, Feedforward, Norm, Residual
Anwendungen	GPT, BERT, Claude, Gemini, LLaMA etc.

Self-Attention: Fokus auf das Wesentliche

Self-Attention ist das Herzstück des Transformers.
Es erlaubt dem Modell, für jedes Wort zu bestimmen, wie wichtig andere Wörter im selben Satz sind.

Beispiel:

Satz: „Der Hund, den die Katze jagte, rannte weg.“

Um zu verstehen, wer wegrennt, muss das Modell erkennen, dass „Hund“ das Subjekt von „rannte“ ist – trotz der Unterbrechung durch den Nebensatz.

Wie funktioniert Attention technisch?

Jedes Token wird in drei Vektoren umgerechnet:

Query (Frage)
Key (Schlüssel)
Value (Inhalt)

Die Querys eines Tokens werden mit den Keys aller anderen Tokens verglichen. Daraus entstehen Gewichtungen, mit denen die Values gemischt werden – je nachdem, was gerade wichtig ist.

Komponente	Aufgabe
Query	Was suche ich?
Key	Was biete ich an?
Value	Welche Information trage ich?

Das Ergebnis: Jedes Wort wird neu dargestellt – als gewichtete Summe aller anderen Wörter, abhängig vom Kontext.

Mathematische Intuition zur Attention

Für mathematisch Interessierte (in vereinfachter Form):

textKopierenAttention(Q, K, V) = softmax(Q · Kᵀ / √dₖ) · V

Q · Kᵀ: Ähnlichkeitsmaß zwischen Wörtern
√dₖ: Normierungsfaktor zur Stabilisierung
softmax(...): Sorgt für Wahrscheinlichkeitsverteilung
· V: Gewichtet die Bedeutungsvektoren entsprechend

Das Ergebnis ist eine neue Darstellung jedes Tokens, abhängig vom gesamten Satzkontext.

Multi-Head Attention: Unterschiedliche Blickwinkel

Self-Attention kann nicht alles gleichzeitig erfassen.
Deshalb wird sie parallel in mehreren „Köpfen“ (Heads) ausgeführt – jede mit anderem Fokus.

Beispiel:
Ein Head fokussiert auf grammatische Struktur, ein anderer auf semantische Nähe, ein dritter auf Zahlen oder Zeitbezüge.

Diese unterschiedlichen Perspektiven werden anschließend zusammengeführt.

Baustein	Funktion
Multi-Head Attention	Parallele Fokusbereiche pro Token
Concatenation	Zusammenführung der Blickwinkel
Lineare Projektion	Rückübersetzung in nutzbare Vektorstruktur

Feedforward-Netzwerke: Nachdenken nach dem Zuhören

Nach der Attention folgt ein Feedforward-Netzwerk.
Es besteht meist aus zwei Schichten mit einer Aktivierungsfunktion dazwischen (z. B. GELU oder ReLU).

Ziel: Transformation der Informationen – eine Art lokales „Nachdenken“, nachdem die Aufmerksamkeit verteilt wurde.

Die gleiche Architektur wird für jedes Token einzeln angewendet – mit denselben Gewichten. Das spart Rechenzeit.

Residualverbindungen & Layer Normalization

Jede Attention-Schicht wird durch zwei wichtige Prinzipien stabilisiert:

1. Residualverbindung

Statt nur das Ergebnis zu übernehmen, wird das Originalsignal hinzuaddiert – ähnlich einer Rückversicherung:

textKopierenAusgabe = Eingabe + Verarbeitung(Eingabe)

→ Das verbessert die Stabilität beim Training und sorgt dafür, dass Informationen nicht verloren gehen.

2. Layer Normalization

Vor der Weiterverarbeitung wird der Vektor normalisiert – also seine Werte auf ein stabiles Maß gebracht.

→ Das hilft dem Modell, schneller und verlässlicher zu lernen.

Wiederholung in Schichten

Ein vollständiger Transformer besteht aus mehreren dieser Blöcke – je nach Modellgröße:

Modellname	Anzahl Transformer-Schichten
GPT-2	12
GPT-3	96
GPT-4 (geschätzt)	>100
LLaMA 3	32 – 70 (je nach Modellgröße)
Claude 3 Opus	nicht öffentlich
Gemini 1.5	unbekannt, aber >32

Je tiefer ein Modell, desto komplexere Zusammenhänge kann es erfassen – aber desto größer auch die Rechenlast.

Fazit & Ausblick

Das Transformer-Modell hat sich als universelle Architektur für Sprache, Code, Bilder und mehr etabliert.

Self-Attention erkennt relevante Zusammenhänge im Kontext
Multi-Head Attention erlaubt unterschiedliche Sichtweisen
Feedforward-Schichten verarbeiten Inhalte lokal weiter
Residuals und Normierung sichern Stabilität beim Lernen

In T eil 6 der Serie klären wir:
Wie unterscheiden sich Sprachmodelle, wenn sie spezifische Aufgaben übernehmen – z. B. für Programmcode, juristische Beratung oder Multimodalität?
Und wie beeinflussen diese Unterschiede Architektur, Training und Anwendung?

FAQ – Häufige Fragen

Was ist Attention?
Ein Verfahren, das bestimmt, welche Wörter im Kontext wichtig für ein anderes sind – ermöglicht sinnvolles Verständnis ganzer Sätze.

Was ist der Unterschied zwischen Feedforward und Attention?
Attention verarbeitet den Kontext, Feedforward verarbeitet das aktuelle Token einzeln weiter.

Wozu dienen Residualverbindungen?
Sie helfen, Informationen über viele Schichten hinweg zu erhalten und erleichtern das Training großer Modelle.

Warum Multi-Head Attention?
Weil ein einzelner Fokus nicht reicht – mehrere „Blickwinkel“ erlauben differenziertere Interpretationen.

05 – Das Innenleben von LLMs: Transformer, Attention & Residuals einfach erklärt