05 – Das Innenleben von LLMs: Transformer, Attention & Residuals einfach erklärt

Teil 5 der Serie: Die Mathematik hinter großen Sprachmodellen verständlich erklärt

17 Juli 2025
Wolf galetzki datista speaker

Wolf Galetzki

Datista® – Growth through Data & AI

Mathematik der sprachmodelle
Teil 5 von 20 der Serie: Die Mathematik hinter LLMs

In Teil 4 der Serie hast du erfahren, wie große Sprachmodelle trainiert und angepasst werden – vom allgemeinen Sprachgefühl bis zur spezialisierten Anwendungslogik.

Doch was passiert im Inneren eines LLMs, wenn du eine Eingabe machst?

In diesem Artikel schauen wir in die Architektur eines modernen Sprachmodells – insbesondere auf das Transformer-Modell, das heute die Grundlage fast aller leistungsfähigen LLMs bildet.

Wir erklären, wie Attention funktioniert, wozu Residualverbindungen nötig sind und warum Feedforward-Netze und Layer Normalization wichtige Rollen spielen.

Der Transformer – Grundgerüst moderner LLMs

Der Transformer wurde 2017 im Paper “Attention is All You Need” vorgestellt und hat das Feld der Sprachverarbeitung revolutioniert.
Im Gegensatz zu früheren Modellen wie RNNs oder LSTMs verarbeitet der Transformer den gesamten Eingabetext gleichzeitig – nicht sequenziell.

Vorteile des Transformer-Modells

  • Parallelisierung: Texte können schneller verarbeitet werden
  • Langer Kontext: Self-Attention ermöglicht das Erfassen weit entfernter Zusammenhänge
  • Modularität: Leicht skalierbar durch wiederholbare Schichten
MerkmalTransformer-Architektur
Entwickelt vonGoogle (2017)
HauptideeAttention statt Wiederholungen
BausteineAttention, Feedforward, Norm, Residual
AnwendungenGPT, BERT, Claude, Gemini, LLaMA etc.

Self-Attention: Fokus auf das Wesentliche

Self-Attention ist das Herzstück des Transformers.
Es erlaubt dem Modell, für jedes Wort zu bestimmen, wie wichtig andere Wörter im selben Satz sind.

Beispiel:

Satz: „Der Hund, den die Katze jagte, rannte weg.“

Um zu verstehen, wer wegrennt, muss das Modell erkennen, dass „Hund“ das Subjekt von „rannte“ ist – trotz der Unterbrechung durch den Nebensatz.

Wie funktioniert Attention technisch?

Jedes Token wird in drei Vektoren umgerechnet:

  • Query (Frage)
  • Key (Schlüssel)
  • Value (Inhalt)

Die Querys eines Tokens werden mit den Keys aller anderen Tokens verglichen. Daraus entstehen Gewichtungen, mit denen die Values gemischt werden – je nachdem, was gerade wichtig ist.

KomponenteAufgabe
QueryWas suche ich?
KeyWas biete ich an?
ValueWelche Information trage ich?

Das Ergebnis: Jedes Wort wird neu dargestellt – als gewichtete Summe aller anderen Wörter, abhängig vom Kontext.

Mathematische Intuition zur Attention

Für mathematisch Interessierte (in vereinfachter Form):

textKopierenAttention(Q, K, V) = softmax(Q · Kᵀ / √dₖ) · V
  • Q · Kᵀ: Ähnlichkeitsmaß zwischen Wörtern
  • √dₖ: Normierungsfaktor zur Stabilisierung
  • softmax(...): Sorgt für Wahrscheinlichkeitsverteilung
  • · V: Gewichtet die Bedeutungsvektoren entsprechend

Das Ergebnis ist eine neue Darstellung jedes Tokens, abhängig vom gesamten Satzkontext.

Multi-Head Attention: Unterschiedliche Blickwinkel

Self-Attention kann nicht alles gleichzeitig erfassen.
Deshalb wird sie parallel in mehreren „Köpfen“ (Heads) ausgeführt – jede mit anderem Fokus.

Beispiel:
Ein Head fokussiert auf grammatische Struktur, ein anderer auf semantische Nähe, ein dritter auf Zahlen oder Zeitbezüge.

Diese unterschiedlichen Perspektiven werden anschließend zusammengeführt.

BausteinFunktion
Multi-Head AttentionParallele Fokusbereiche pro Token
ConcatenationZusammenführung der Blickwinkel
Lineare ProjektionRückübersetzung in nutzbare Vektorstruktur

Feedforward-Netzwerke: Nachdenken nach dem Zuhören

Nach der Attention folgt ein Feedforward-Netzwerk.
Es besteht meist aus zwei Schichten mit einer Aktivierungsfunktion dazwischen (z. B. GELU oder ReLU).

Ziel: Transformation der Informationen – eine Art lokales „Nachdenken“, nachdem die Aufmerksamkeit verteilt wurde.

Die gleiche Architektur wird für jedes Token einzeln angewendet – mit denselben Gewichten. Das spart Rechenzeit.

Residualverbindungen & Layer Normalization

Jede Attention-Schicht wird durch zwei wichtige Prinzipien stabilisiert:

1. Residualverbindung

Statt nur das Ergebnis zu übernehmen, wird das Originalsignal hinzuaddiert – ähnlich einer Rückversicherung:

textKopierenAusgabe = Eingabe + Verarbeitung(Eingabe)

→ Das verbessert die Stabilität beim Training und sorgt dafür, dass Informationen nicht verloren gehen.

2. Layer Normalization

Vor der Weiterverarbeitung wird der Vektor normalisiert – also seine Werte auf ein stabiles Maß gebracht.

→ Das hilft dem Modell, schneller und verlässlicher zu lernen.

Wiederholung in Schichten

Ein vollständiger Transformer besteht aus mehreren dieser Blöcke – je nach Modellgröße:

ModellnameAnzahl Transformer-Schichten
GPT-212
GPT-396
GPT-4 (geschätzt)>100
LLaMA 332 – 70 (je nach Modellgröße)
Claude 3 Opusnicht öffentlich
Gemini 1.5unbekannt, aber >32

Je tiefer ein Modell, desto komplexere Zusammenhänge kann es erfassen – aber desto größer auch die Rechenlast.

Fazit & Ausblick

Das Transformer-Modell hat sich als universelle Architektur für Sprache, Code, Bilder und mehr etabliert.

  • Self-Attention erkennt relevante Zusammenhänge im Kontext
  • Multi-Head Attention erlaubt unterschiedliche Sichtweisen
  • Feedforward-Schichten verarbeiten Inhalte lokal weiter
  • Residuals und Normierung sichern Stabilität beim Lernen

In Teil 6 der Serie klären wir:
Wie unterscheiden sich Sprachmodelle, wenn sie spezifische Aufgaben übernehmen – z. B. für Programmcode, juristische Beratung oder Multimodalität?
Und wie beeinflussen diese Unterschiede Architektur, Training und Anwendung?


FAQ – Häufige Fragen

Was ist Attention?
Ein Verfahren, das bestimmt, welche Wörter im Kontext wichtig für ein anderes sind – ermöglicht sinnvolles Verständnis ganzer Sätze.

Was ist der Unterschied zwischen Feedforward und Attention?
Attention verarbeitet den Kontext, Feedforward verarbeitet das aktuelle Token einzeln weiter.

Wozu dienen Residualverbindungen?
Sie helfen, Informationen über viele Schichten hinweg zu erhalten und erleichtern das Training großer Modelle.

Warum Multi-Head Attention?
Weil ein einzelner Fokus nicht reicht – mehrere „Blickwinkel“ erlauben differenziertere Interpretationen.

Wolf Galetzki

Berät Unternehmen bei der Einführung von KI und Automatisierung. Als Gründer von Datista liegt sein Fokus auf datensouveränen, anpassbaren Lösungen.

Wolf galetzki datista speaker

Alle Artikel der Serie:

Die Artikelserie "Die Mathematik hinter LLMs" umfasst insgesammt 20 Artikel. Folgende Artikel sind bereits veröffentlicht: