13 – Finetuning verstehen: Wann lohnt sich das Nachtrainieren von LLMs wirklich? – Datista®

Immer wieder wird behauptet:

„Wir müssen das Modell finetunen – sonst ist es nicht gut genug.“

Aber stimmt das? Oder gibt es andere Wege, ein Modell an die eigenen Anforderungen anzupassen?

In diesem Teil klären wir:

Was Finetuning überhaupt ist
Welche Varianten es gibt
Wann Finetuning sinnvoll ist – und wann nicht
Welche Alternativen du kennen solltest

Was ist Finetuning?

Beim Finetuning wird ein bereits trainiertes Sprachmodell mit zusätzlichen Beispielen weitertrainiert, um es auf spezielle Aufgaben, Branchen oder Tonalitäten anzupassen.

Man verändert dabei die Gewichte des Modells – nicht nur die Eingabe (wie beim Prompting).

Finetuning vs. Prompting vs. RAG – die Abgrenzung

Methode	Eingriffstiefe	Datenbasis veränderbar?	Kosten	Latenz	Flexibilität
Prompting	keine	Nein	💰 Niedrig	⚡ Schnell	🔄 Hoch
RAG	mittel	Ja (Kontextdaten)	💰 Mittel	⚡ Schnell	🔄 Sehr hoch
Finetuning	tief	Ja (Gewichte)	💰💰 Hoch	🐢 Höher	🔄 Gering

Prompting und RAG reichen in 80–90 % der Unternehmensanwendungen völlig aus.

Typen von Finetuning

1. Instruction Tuning

→ Das Modell lernt, besser auf Anweisungen zu reagieren.

2. Domain Adaptation

→ Anpassung an einen Fachbereich (z. B. Recht, Medizin).

3. Style/Persona Tuning

→ Modell spricht in bestimmtem Tonfall oder Rolle.

4. Continual Training

→ Fortlaufendes Lernen mit neuen Daten.

5. LoRA (Low-Rank Adaptation)

→ Leichtgewichtiges Finetuning mit wenig Ressourcen – oft bevorzugt bei Open Source.

Wann ist Finetuning sinnvoll?

Szenario	Empfehlung
Du brauchst präzise Antworten in Fachsprache	Ja – Finetuning sinnvoll
Dein Modell soll einen bestimmten Stil lernen	Ja – Persona-Tuning möglich
Du willst Daten nicht ständig im Prompt mitgeben	Ja – effizienter durch Finetuning
Du hast viele strukturierte Trainingsdaten	Ja – ideal für Training
Du brauchst höchste Performance im Edge-Case	Ja – Finetuning hilft

Wann ist Finetuning übertrieben oder riskant?

Problem	Alternativen
Du hast zu wenig Daten	RAG oder Prompting
Deine Daten sind nicht sauber	Erst bereinigen, dann evtl. Finetuning
Du brauchst viel Flexibilität	RAG statt starres Modell
Du arbeitest mit personenbezogenen Daten	→ Datenschutzproblem, LoRA oder Adapter prüfen

Finetuning verändert die „Persönlichkeit“ des Modells – das ist nicht immer gewünscht.

Voraussetzungen für gutes Finetuning

Du brauchst:

Mindestens tiefgreifende technische Erfahrung (MLOps, PyTorch, Tokenisierung)
Saubere, qualitativ hochwertige Datensätze
Klare Zieldefinition (Was soll besser werden?)
GPU-Infrastruktur (oft mehrere A100 oder vergleichbar)
Monitoring & Re-Training-Möglichkeiten

Für LoRA-Finetuning auf 7B-Modellen genügt oft ein A100 oder 2x L40.
Für große Modelle (30B+) ist Finetuning sehr ressourcenintensiv.

Alternativen zum klassischen Finetuning

Methode	Vorteil
RAG	Schnell, flexibel, keine Modelländerung
Systemprompts	Verhalten steuerbar ohne Training
Prompt Libraries	Wiederverwendbare Bausteine
Adapters / LoRA	Leichtgewichtiger, trennbar vom Modell
Embedding + Vektorsuche	„Wissen“ extern halten

→ Kombinierbar: Du kannst RAG mit LoRA und Prompts mischen.

Beispiel: Interner Chatbot mit Fachwissen

Ziel: Ein Supportbot soll in 5 Sprachen auf spezifische Fragen zu einer proprietären Software antworten.

Lösung	Beschreibung
RAG	Kontext aus Manuals, FAQs etc.
LoRA	Feinjustierung des Sprachstils
Prompt-Template	Zwingt zur Nennung von Quellen
Selfhosting	Schutz sensibler Daten

Finetuning ist hier nur ein Teil der Lösung – nicht der zentrale Baustein.

Fazit & Ausblick

Finetuning ist mächtig – aber oft überschätzt.
Es lohnt sich vor allem, wenn du:

Viele, saubere Daten hast
Eine stabile Infrastruktur betreibst
Klare Ziele für die Anpassung definieren kannst

In allen anderen Fällen sind RAG und Prompting nicht nur einfacher – sie sind oft auch robuster und günstiger.

In Teil 14 der Serie zeigen wir:
Wie du LLMs mit Workflows und Automatisierungen kombinierst – von n8n bis Agent-Systemen.

FAQ – Häufige Fragen

Kann ich GPT-4 finetunen?
Nein. OpenAI erlaubt aktuell kein Finetuning von GPT-4 – nur GPT-3.5. Bei anderen Anbietern ist das je nach Modell möglich.

Was ist LoRA genau?
LoRA (Low-Rank Adaptation) ist eine Methode, ein Modell leichtgewichtig zu verändern, ohne alle Parameter neu zu trainieren.

Gibt es fertige Finetuning-Pipelines?
Ja – z. B. Hugging Face transformers, Axolotl, QLoRA, oder LM Studio für Testzwecke.

Wie finde ich heraus, ob Finetuning nötig ist?
Teste deinen Use Case mit RAG und Prompting. Erst wenn du qualitative Lücken feststellst, solltest du Finetuning in Betracht ziehen.

13 – Finetuning verstehen: Wann lohnt sich das Nachtrainieren von LLMs wirklich?