04 – Pretraining, Finetuning & Spezialisierung: Wie LLMs ihren Charakter entwickeln

Teil 4 der Serie: Die Mathematik hinter großen Sprachmodellen verständlich erklärt

14 Juli 2025
Wolf galetzki datista speaker

Wolf Galetzki

Datista® – Growth through Data & AI

Mathematik der sprachmodelle
Teil 4 von 20 der Serie: Die Mathematik hinter LLMs

In Teil 3 der Serie haben wir uns angeschaut, wie LLMs mit langen Kontexten umgehen, wie sie zuverlässig bleiben und warum Regularisierung so wichtig ist.

Heute gehen wir noch einen Schritt weiter:
Was passiert eigentlich beim Training eines Sprachmodells – und wo endet dieses Training?

Die Antwort: Es gibt nicht „das eine Training“, sondern mehrere Phasen.
In diesem Artikel erklären wir die Unterschiede zwischen Pretraining, Finetuning und Instruction Tuning – und wie daraus spezialisierte Modelle wie ChatGPT oder Copilot entstehen.

Pretraining: Sprachgefühl durch Masse

Das Pretraining ist der erste und wichtigste Schritt.
Hier lernt das Modell das Grundverständnis von Sprache – rein durch Statistik.

Was passiert beim Pretraining?

Das Modell wird mit riesigen Textmengen gefüttert.
Ziel ist es, fehlende Wörter vorherzusagen – oft durch sogenannte Masked Language Modeling oder Next Token Prediction.

Beispiel (Next Token Prediction):
Eingabe: „Die Hauptstadt von Italien ist …“
Erwartete Ausgabe: „Rom“

Beispiel (Masked LM):
Eingabe: „Die Hauptstadt von [MASK] ist Rom“
Erwartete Ausgabe: „Italien“

Typische Pretraining-Daten:

  • Wikipedia
  • Bücher
  • wissenschaftliche Artikel
  • Foren (z. B. StackExchange, Reddit)
  • öffentlich zugängliche Webseiten

Das Modell lernt dabei keine Fakten, sondern Wahrscheinlichkeiten für Wortfolgen.
Es entwickelt ein Gefühl für Sprachmuster – ähnlich wie ein Kind, das durch Zuhören sprechen lernt.

Finetuning: Spezialisierung nach dem Sprachgefühl

Nach dem Pretraining kann das Modell „Sprache“, aber noch nicht „Aufgaben“.

Deshalb folgt ein gezieltes Finetuning – mit kleineren, spezialisierten Datensätzen.
Hier lernt das Modell, kontextbezogen besser zu antworten, mit klareren Strukturen und höherer Relevanz.

Beispiel:
Ein Modell wird mit juristischen Texten feinabgestimmt, um rechtssichere Antworten zu geben.
Oder: Ein Finetuning auf medizinische Daten führt zu einem Modell, das besser mit Fachbegriffen umgehen kann.

Merkmale des Finetunings:

  • Deutlich kleinere Datenmengen
  • Höhere Qualität der Daten
  • Oft mehrere Durchläufe mit manuellem Feedback
  • In manchen Fällen: nur auf einzelne Aufgaben zugeschnitten

📎 Instruction Tuning: Vom Modell zum Assistenten

Sprachmodelle sollen heute nicht nur vorhersagen – sondern kontextsensitiv handeln.
Sie sollen Fragen beantworten, zusammenfassen, strukturieren, formulieren.

Dazu dient das Instruction Tuning:
Das Modell wird mit Beispielen trainiert, wie es auf klare Anweisungen reagieren soll.

Beispiel:
Prompt: „Fasse den folgenden Absatz in 2 Sätzen zusammen.“
Training: Das Modell sieht gute und schlechte Beispiele, wie so eine Aufgabe gelöst wird – und lernt, was „gewünscht“ ist.

Unterschied zum Finetuning?

AspektFinetuningInstruction Tuning
ZielsetzungSpezialisierung auf FachdomänenVerhalten bei Anweisungen
Art der DatenFachtexte, strukturierte InhaltePrompts & gewünschte Antworten
BeispielmodellLLM mit juristischem FokusChatbot, der Aufgaben bearbeitet

Reinforcement Learning from Human Feedback (RLHF)

Ein Spezialfall des Instruction Tuning ist RLHF – besonders bekannt durch ChatGPT.

Hier werden Antworten des Modells von Menschen bewertet – etwa auf Verständlichkeit, Relevanz, Höflichkeit oder Sicherheit.

Diese Rückmeldungen dienen als Grundlage für ein weiteres Lernverfahren:
→ das Modell lernt, wie es nicht nur korrekt, sondern auch hilfreich und vertrauenswürdig antwortet.

Drei Schritte von RLHF:

  1. Sammlung von menschlichen Bewertungen (gut/schlecht)
  2. Training eines Belohnungsmodells
  3. Anpassung des Modells durch Reinforcement Learning

Kurz gesagt: Das Modell lernt aus Lob und Kritik.

Beispiele für Modellvarianten

ModellnameBesonderheitVerwendete Techniken
GPT-3General Purpose LLMPretraining
GPT-3.5-turboChat-optimiert+ Instruction Tuning + RLHF
Claude (Anthropic)Fokus auf „harmlessness“Instruction + human values alignment
LLaMA 2Open-Source-GrundmodellPretraining + optional Finetuning
Med-PaLMSpezialisiert auf MedizinFinetuning auf medizinische Inhalte

Kombination der Methoden

In der Praxis ist die Grenze zwischen Pretraining, Finetuning und Instruction Tuning fließend.
Viele Modelle durchlaufen alle drei Stufen – manche sogar mehrfach.

Der typische Weg:

  1. Pretraining auf sehr großen, unsauberen Daten
  2. Finetuning auf fokussierte, hochwertigere Inhalte
  3. Instruction Tuning mit Aufgabenbeispielen
  4. Optional: RLHF zur Feinschärfung des Verhaltens

Je nach Anwendung kann das Modell danach als Chatbot, Code-Assistent, Textgenerator oder Recherchehilfe eingesetzt werden.

Fazit & Ausblick

LLMs entwickeln ihr „Verständnis“ in mehreren Schritten:

  • Pretraining schafft das Sprachgefühl
  • Finetuning verleiht Fachwissen
  • Instruction Tuning macht aus Modellen Assistenten
  • RLHF sorgt für nützliches und verantwortungsvolles Verhalten

In Teil 5 der Serie werfen wir einen Blick in die Modellarchitektur selbst:
Wie funktioniert eigentlich ein Transformer im Detail – mit Attention, Feedforward-Schichten und Residualverbindungen?


FAQ – Häufige Fragen

Was ist der Unterschied zwischen Pretraining und Finetuning?
Pretraining ist die erste Phase, in der das Modell Sprachmuster erlernt. Finetuning erfolgt danach, um das Modell auf spezielle Inhalte oder Aufgaben auszurichten.

Wozu dient Instruction Tuning?
Es trainiert das Modell darauf, auf klare Anweisungen korrekt und hilfreich zu reagieren.

Wie funktioniert RLHF?
Menschen bewerten Modellantworten, daraus wird ein Belohnungssystem erstellt, das das Verhalten des Modells weiter optimiert.

Ist ein spezialisiertes Modell immer besser?
Nein – es kommt auf die Aufgabe an. Spezialmodelle sind oft präziser, aber weniger flexibel. Allgemeinmodelle sind vielseitiger, aber manchmal ungenauer.

Wolf Galetzki

Berät Unternehmen bei der Einführung von KI und Automatisierung. Als Gründer von Datista liegt sein Fokus auf datensouveränen, anpassbaren Lösungen.

Wolf galetzki datista speaker