04 – Pretraining, Finetuning & Spezialisierung: Wie LLMs ihren Charakter entwickeln – Datista®

In Teil 3 der Serie haben wir uns angeschaut, wie LLMs mit langen Kontexten umgehen, wie sie zuverlässig bleiben und warum Regularisierung so wichtig ist.

Heute gehen wir noch einen Schritt weiter:
Was passiert eigentlich beim Training eines Sprachmodells – und wo endet dieses Training?

Die Antwort: Es gibt nicht „das eine Training“, sondern mehrere Phasen.
In diesem Artikel erklären wir die Unterschiede zwischen Pretraining, Finetuning und Instruction Tuning – und wie daraus spezialisierte Modelle wie ChatGPT oder Copilot entstehen.

Pretraining: Sprachgefühl durch Masse

Das Pretraining ist der erste und wichtigste Schritt.
Hier lernt das Modell das Grundverständnis von Sprache – rein durch Statistik.

Was passiert beim Pretraining?

Das Modell wird mit riesigen Textmengen gefüttert.
Ziel ist es, fehlende Wörter vorherzusagen – oft durch sogenannte Masked Language Modeling oder Next Token Prediction.

Beispiel (Next Token Prediction):
Eingabe: „Die Hauptstadt von Italien ist …“
Erwartete Ausgabe: „Rom“

Beispiel (Masked LM):
Eingabe: „Die Hauptstadt von [MASK] ist Rom“
Erwartete Ausgabe: „Italien“

Typische Pretraining-Daten:

Wikipedia
Bücher
wissenschaftliche Artikel
Foren (z. B. StackExchange, Reddit)
öffentlich zugängliche Webseiten

Das Modell lernt dabei keine Fakten, sondern Wahrscheinlichkeiten für Wortfolgen.
Es entwickelt ein Gefühl für Sprachmuster – ähnlich wie ein Kind, das durch Zuhören sprechen lernt.

Finetuning: Spezialisierung nach dem Sprachgefühl

Nach dem Pretraining kann das Modell „Sprache“, aber noch nicht „Aufgaben“.

Deshalb folgt ein gezieltes Finetuning – mit kleineren, spezialisierten Datensätzen.
Hier lernt das Modell, kontextbezogen besser zu antworten, mit klareren Strukturen und höherer Relevanz.

Beispiel:
Ein Modell wird mit juristischen Texten feinabgestimmt, um rechtssichere Antworten zu geben.
Oder: Ein Finetuning auf medizinische Daten führt zu einem Modell, das besser mit Fachbegriffen umgehen kann.

Merkmale des Finetunings:

Deutlich kleinere Datenmengen
Höhere Qualität der Daten
Oft mehrere Durchläufe mit manuellem Feedback
In manchen Fällen: nur auf einzelne Aufgaben zugeschnitten

📎 Instruction Tuning: Vom Modell zum Assistenten

Sprachmodelle sollen heute nicht nur vorhersagen – sondern kontextsensitiv handeln.
Sie sollen Fragen beantworten, zusammenfassen, strukturieren, formulieren.

Dazu dient das Instruction Tuning:
Das Modell wird mit Beispielen trainiert, wie es auf klare Anweisungen reagieren soll.

Beispiel:
Prompt: „Fasse den folgenden Absatz in 2 Sätzen zusammen.“
Training: Das Modell sieht gute und schlechte Beispiele, wie so eine Aufgabe gelöst wird – und lernt, was „gewünscht“ ist.

Unterschied zum Finetuning?

Aspekt	Finetuning	Instruction Tuning
Zielsetzung	Spezialisierung auf Fachdomänen	Verhalten bei Anweisungen
Art der Daten	Fachtexte, strukturierte Inhalte	Prompts & gewünschte Antworten
Beispielmodell	LLM mit juristischem Fokus	Chatbot, der Aufgaben bearbeitet

Reinforcement Learning from Human Feedback (RLHF)

Ein Spezialfall des Instruction Tuning ist RLHF – besonders bekannt durch ChatGPT.

Hier werden Antworten des Modells von Menschen bewertet – etwa auf Verständlichkeit, Relevanz, Höflichkeit oder Sicherheit.

Diese Rückmeldungen dienen als Grundlage für ein weiteres Lernverfahren:
→ das Modell lernt, wie es nicht nur korrekt, sondern auch hilfreich und vertrauenswürdig antwortet.

Drei Schritte von RLHF:

Sammlung von menschlichen Bewertungen (gut/schlecht)
Training eines Belohnungsmodells
Anpassung des Modells durch Reinforcement Learning

Kurz gesagt: Das Modell lernt aus Lob und Kritik.

Beispiele für Modellvarianten

Modellname	Besonderheit	Verwendete Techniken
GPT-3	General Purpose LLM	Pretraining
GPT-3.5-turbo	Chat-optimiert	+ Instruction Tuning + RLHF
Claude (Anthropic)	Fokus auf „harmlessness“	Instruction + human values alignment
LLaMA 2	Open-Source-Grundmodell	Pretraining + optional Finetuning
Med-PaLM	Spezialisiert auf Medizin	Finetuning auf medizinische Inhalte

Kombination der Methoden

In der Praxis ist die Grenze zwischen Pretraining, Finetuning und Instruction Tuning fließend.
Viele Modelle durchlaufen alle drei Stufen – manche sogar mehrfach.

Der typische Weg:

Pretraining auf sehr großen, unsauberen Daten
Finetuning auf fokussierte, hochwertigere Inhalte
Instruction Tuning mit Aufgabenbeispielen
Optional: RLHF zur Feinschärfung des Verhaltens

Je nach Anwendung kann das Modell danach als Chatbot, Code-Assistent, Textgenerator oder Recherchehilfe eingesetzt werden.

Fazit & Ausblick

LLMs entwickeln ihr „Verständnis“ in mehreren Schritten:

Pretraining schafft das Sprachgefühl
Finetuning verleiht Fachwissen
Instruction Tuning macht aus Modellen Assistenten
RLHF sorgt für nützliches und verantwortungsvolles Verhalten

In Teil 5 der Serie werfen wir einen Blick in die Modellarchitektur selbst:
Wie funktioniert eigentlich ein Transformer im Detail – mit Attention, Feedforward-Schichten und Residualverbindungen?

FAQ – Häufige Fragen

Was ist der Unterschied zwischen Pretraining und Finetuning?
Pretraining ist die erste Phase, in der das Modell Sprachmuster erlernt. Finetuning erfolgt danach, um das Modell auf spezielle Inhalte oder Aufgaben auszurichten.

Wozu dient Instruction Tuning?
Es trainiert das Modell darauf, auf klare Anweisungen korrekt und hilfreich zu reagieren.

Wie funktioniert RLHF?
Menschen bewerten Modellantworten, daraus wird ein Belohnungssystem erstellt, das das Verhalten des Modells weiter optimiert.

Ist ein spezialisiertes Modell immer besser?
Nein – es kommt auf die Aufgabe an. Spezialmodelle sind oft präziser, aber weniger flexibel. Allgemeinmodelle sind vielseitiger, aber manchmal ungenauer.

04 – Pretraining, Finetuning & Spezialisierung: Wie LLMs ihren Charakter entwickeln