Wie große Sprachmodelle funktionieren – und warum Mathematik dabei die zentrale Rolle spielt.
Große Sprachmodelle (LLMs) gehören mittlerweile zu den leistungsfähigsten Technologien der Gegenwart. Sie verfassen Texte, analysieren Inhalte, schreiben Code – und sie tun all das scheinbar mühelos.
Doch unter der Oberfläche dieser Systeme arbeitet ein komplexes Zusammenspiel mathematischer Prinzipien: lineare Algebra, Wahrscheinlichkeitsrechnung, Vektorrechnung und Optimierungsmethoden. Diese Grundlagen machen es möglich, dass ein Modell nicht nur Sprache verarbeitet, sondern auch Zusammenhänge versteht und sinnvolle Antworten generiert.
Ziel dieses Artikels ist es, diese mathematischen Konzepte verständlich zu erklären – ohne unnötige Vereinfachung, aber mit klarer Sprache, nachvollziehbaren Beispielen und einer strukturierten Herangehensweise.
Dies ist der erste Teil einer mehrteiligen Serie, in der wir noch einige weitergehende Konzepte und Methoden behandeln werden, um dir eines der spannendsten Themen unserer Zeit einfach zu erklären.
Was ist ein LLM?
Ein Large Language Model ist ein Sprachmodell mit Milliarden von Parametern, trainiert auf umfangreichen Textmengen. Es kann Sprache analysieren, erzeugen und inhaltlich passend fortsetzen.
Was dabei wie „Intelligenz“ wirkt, ist im Kern ein sehr leistungsfähiger Wahrscheinlichkeitsmechanismus. LLMs berechnen, welches Wort mit hoher Wahrscheinlichkeit als Nächstes passt – basierend auf dem bisherigen Kontext und dem erlernten Sprachverständnis.
Diese Berechnungen basieren nicht auf Intuition, sondern auf Statistik, linearer Algebra und mehrstufigen Optimierungsprozessen.
Ein historischer Blick: Wie alles begann
Die mathematische Modellierung von Sprache reicht bis in die Mitte des 20. Jahrhunderts zurück. Einer der Grundpfeiler war die Arbeit von Claude Shannon, der 1948 die Informationstheorie entwickelte. Seine zentrale Idee: Sprache besteht aus wahrscheinlichen Übergängen – das nächste Wort ist abhängig von dem davor.
Shannon zeigte, dass sich Text durch Wahrscheinlichkeiten modellieren lässt. Damit legte er die Grundlage für spätere Sprachmodelle, die diesen Ansatz mit immer komplexeren Methoden weiterführten.
N-Gramme: Die ersten statistischen Sprachmodelle
In den 1980er-Jahren kamen sogenannte N-Gramm-Modelle zum Einsatz. Sie teilen Texte in kurze Wortfolgen und analysieren, welche Kombinationen häufig auftreten.
N-Gramm-Typ | Beispiel |
---|---|
Unigram | „Hallo“ |
Bigram | „Hallo Welt“ |
Trigram | „Ich liebe dich“ |
Diese Modelle berechnen die Wahrscheinlichkeit für das nächste Wort basierend auf den vorherigen N – also beispielsweise 2 oder 3 – Wörtern.
Limitation: Der Kontext ist begrenzt. Längere Abhängigkeiten, wie sie für echtes Sprachverständnis notwendig sind, lassen sich mit N-Grammen nur schwer abbilden.
Tokenisierung: Wie Text für Maschinen lesbar wird
Sprachmodelle verarbeiten keine Wörter im herkömmlichen Sinne. Sie benötigen eine Vorverarbeitung, die aus Texten kleinste sinnvolle Einheiten macht: sogenannte Tokens.
Ein Token kann ein einzelner Buchstabe, eine Silbe oder ein ganzes Wort sein – je nach Sprache und Modell. Der englische Begriff „unbelievable“ wird zum Beispiel häufig in drei Tokens zerlegt: „un“, „believe“ und „able“.
Byte Pair Encoding (BPE)
Ein gängiges Verfahren für Tokenisierung ist Byte Pair Encoding (BPE). Es zählt, welche Zeichenfolgen besonders häufig auftreten, und kombiniert sie iterativ zu immer größeren Einheiten. Dadurch entsteht ein kompaktes Vokabular, das dennoch flexibel genug ist, um neue oder zusammengesetzte Wörter zu verarbeiten.
Nutzen:
Tokenisierung reduziert die Komplexität der Sprache auf eine maschinenlesbare Form – ohne die Bedeutung zu verlieren.
Embeddings: Wörter als Vektoren im Raum
Nachdem ein Text in Tokens zerlegt wurde, muss er mathematisch dargestellt werden. Dafür verwendet man Vektoren, die den Tokens eine Lage im mehrdimensionalen Raum zuweisen.
Dieses Verfahren nennt sich Embedding. Es erlaubt, die semantische Nähe zwischen Wörtern zu berechnen – etwa über den Winkel zwischen zwei Vektoren im Raum (Cosinus-Ähnlichkeit).
Wortpaar | Ähnlichkeit (0–1) |
---|---|
König – Königin | 0.92 |
Arzt – Patient | 0.77 |
Hund – Auto | 0.21 |
Bedeutung
Wörter mit ähnlicher Bedeutung liegen im Vektorraum näher beieinander. Das Modell kann so lernen, dass „Hund“ und „Katze“ sich stärker ähneln als „Hund“ und „Kabel“.
Vorteil:
Die Rechenoperationen auf diesen Vektoren ermöglichen eine mathematische Repräsentation von Bedeutung.
Transformer: Kontext erfassen mit Selbstaufmerksamkeit
Der eigentliche Durchbruch in der Sprachverarbeitung gelang 2017 mit der Einführung der Transformer-Architektur. Sie wurde in der Publikation „Attention is all you need“ vorgestellt.
Grundprinzip
Ein Transformer verarbeitet alle Wörter eines Satzes parallel, nicht sequenziell wie frühere Modelle. So kann jedes Wort seine Bedeutung in Abhängigkeit vom gesamten Satzkontext bestimmen.
Self-Attention
Im Kern des Transformers liegt das sogenannte Self-Attention-Modul. Es berechnet, wie stark sich ein Wort auf andere Wörter im Satz bezieht – z. B. bei Pronomen wie „er“, die nur im Kontext aufgelöst werden können.
FAQ / Glossar (Kurzfassung)
Token: Kleinste Texteinheit für das Modell (z. B. Silben, Wortbestandteile).
Embedding: Mathematische Darstellung eines Tokens als Vektor im Raum.
Transformer: Modellarchitektur zur parallelen Verarbeitung von Kontext.
Self-Attention: Mechanismus, um Abhängigkeiten zwischen Wörtern zu bewerten.
N-Gramm: Statistik-basierte Methode, um Wahrscheinlichkeiten für Wortfolgen zu berechnen.
Claude Shannon: Begründer der Informationstheorie (1948).
Byte Pair Encoding: Verfahren zur Tokenisierung basierend auf häufigen Zeichenfolgen.
Im nächsten Teil erklären wir, wie genau Self-Attention funktioniert – inklusive Query, Key, Value, Positionskodierung und einem Blick auf das Training durch Gradient Descent.