09 – Wissen statt Raten: Wie RAG Sprachmodelle auf dein Unternehmen trainiert – ohne Training

Teil 9 der Serie: Die Mathematik hinter großen Sprachmodellen verständlich erklärt

23 Juli 2025
Wolf galetzki datista speaker

Wolf Galetzki

Datista® – Growth through Data & AI

Mathematik der sprachmodelle
Teil 9 von 20 der Serie: Die Mathematik hinter LLMs

Sprachmodelle wie GPT-4 sind beeindruckend – aber sie haben ein zentrales Problem:
Sie erfinden Dinge. Oder wie es in der Fachsprache heißt: „Sie halluzinieren.“

Was aber, wenn du möchtest, dass ein Modell nur mit deinem Wissen antwortet – z. B. aus internen PDFs, Datenbanken oder Richtlinien?

Dann kommt RAG ins Spiel: Retrieval-Augmented Generation.

In diesem Artikel erfährst du:

  • Was RAG ist – und wie es funktioniert
  • Warum es oft besser ist als Finetuning
  • Welche Tools du brauchst
  • Wie ein typischer RAG-Workflow aussieht
  • Welche Risiken und Grenzen es gibt

Was ist RAG – und warum braucht man das?

LLMs haben zwei Probleme im Unternehmenskontext:

  1. Ihr Wissen ist veraltet (Trainingsstand meist >6 Monate alt)
  2. Sie kennen deine Daten nicht (z. B. dein Intranet, deine Produktlogik)

Lösung: Das Modell nutzt aktuelle & interne Daten bei jeder Antwort.

RAG bedeutet: Das Modell recherchiert vor der Antwort – es zieht sich passende Inhalte aus einer externen Wissensquelle, statt einfach alles zu raten.

Vorteile gegenüber klassischem Finetuning:

KriteriumRAGFinetuning
Aktualisierbarkeitjederzeit neue Inhalte ladenjedes Mal neu trainieren
Datenschutzkeine festen Daten im ModellDaten dauerhaft integriert
FlexibilitätInhalte austauschbarfeste „Verankerung“
Infrastrukturleichtgewichtig, API-basiertGPU-Cluster + Expertise nötig

RAG ist wie ein LLM mit eingebautem Wissensmanager – es denkt nicht „aus dem Bauch“, sondern sucht zuerst nach Kontext.

Wie funktioniert ein RAG-System?

RAG besteht aus drei Hauptkomponenten:

  1. Retriever
    → durchsucht externe Inhalte (z. B. PDFs, Datenbank-Einträge)
  2. RAG-Pipeline
    → kombiniert User-Frage + Fundstellen zu einem optimierten Prompt
  3. Generator (LLM)
    → formuliert eine Antwort – auf Basis des gefundenen Kontexts

Typischer Ablauf:

textKopierenUserfrage → Retriever sucht Kontext → Prompt wird gebaut → LLM antwortet mit Quellenbezug

Beispielkomponenten (modular):

FunktionTool/Libs
ChunkingLangChain, LlamaIndex, Haystack
VektorsucheQdrant, Weaviate, FAISS, Pinecone
EmbeddingsHuggingFace, OpenAI, Azure, E5, BAAI
LLMGPT-4, Mistral, LLaMA, Claude, Gemini
Prompt-LogikTemplates, Chain-of-Thought, ReAct

Welche Daten eignen sich für RAG?

RAG kann (fast) jede Textquelle verarbeiten – du musst nur die Struktur in den Griff bekommen.

Geeignete Quellen:

  • Interne PDF-Dokumente
  • Webseiten & Intranets
  • Datenbankeinträge (nach Export)
  • CSVs, JSON, XML
  • PowerPoint, Word, E-Mails (nach Umwandlung)

Wichtig: „Chunking“ entscheidet

Ein RAG-System teilt Inhalte in kleine, semantisch sinnvolle Stücke (Chunks) auf – z. B. Absätze, FAQs oder Kapitelüberschriften.
Zu kleine Chunks = Kontext verloren. Zu große Chunks = relevante Infos übersehen.

Faustregel: Lieber inhaltlich trennen (Thema, Satzstruktur) als technisch (nach Zeichenlänge).

Beispiel: FAQ-RAG für den Support

Frage: „Was passiert, wenn mein Passwort abläuft?“
→ RAG sucht im Intranet-Export nach Textstellen wie:

„Passwörter müssen alle 90 Tage geändert werden. Bei Ablauf erhalten Sie eine Erinnerungsmail…“

Dann baut das System folgenden Prompt:

„Ein Nutzer hat gefragt: ‘Was passiert, wenn mein Passwort abläuft?’
Hier ist ein Auszug aus dem internen Regelwerk:
[…]
Formuliere bitte eine hilfreiche Antwort auf Basis dieses Wissens.“

→ Das Modell antwortet korrekt und mit Kontext – obwohl es die Antwort vorher nie „gelernt“ hat.

Architekturvarianten: Light vs. Heavy RAG

Variante 1: Leichtgewichtige RAG-API (ideal für KMU)

  • Lokale Dateien oder Nextcloud-Ordner
  • Embeddings mit SentenceTransformers (E5, BAAI)
  • Vektorsuche über Qdrant oder FAISS
  • Antwortgenerierung mit GPT-4 oder Mixtral
    → Eingebettet in Chat-UI oder Support-Modul

Variante 2: Unternehmens-RAG mit Live-Index

  • Daten-ETL in Echtzeit (PDF + SQL + SharePoint + API)
  • Custom Chunking & Klassifikation
  • Scoring & Ranking der Retrieval-Ergebnisse
  • Reranking durch Mini-LLM oder BGE
  • Antwortverlinkung & Quellenanzeige

Fallstricke & Grenzen

RAG ist kein Wundermittel. Typische Probleme:

ProblemLösung / Hinweis
Kontext passt nicht zur FrageReranking / Query Expansion nötig
Nutzerfrage ist zu unpräzisePrompt-Optimierung
Datensätze veraltetVersionierung / regelmäßiges Crawling
Falsche Antwort trotz gutem KontextPrompt war zu schwach
Halluzination bleibt möglichZwinge Antwort auf Kontext zu basieren („Answer only using…“)

Best Practices für RAG

  • Chunke semantisch, nicht technisch.
  • Nutze hochwertige Embeddings. (z. B. E5, OpenAI ada-002, BGE-large)
  • Baue Prompt-Templates mit Kontextpflicht.
  • Zeige Quellen an, wenn möglich.
  • Trenne UI/UX sauber vom Backend.

Fazit & Ausblick

RAG ist ein einfacher, aber mächtiger Weg, um eigene Daten mit Sprachmodellen zu kombinieren – ohne Trainingsaufwand.

Wer RAG sauber aufsetzt, erhält ein System, das:

  • präziser antwortet
  • weniger halluziniert
  • einfacher pflegbar ist
  • und auch mit Open-Source-Modellen funktioniert

In Teil 10 der Serie zeigen wir:
Wie du RAG mit Vektorsuche, Metadatenfilter und Feedback-Loop kombinierst, um produktionsreife KI-Assistenten zu bauen.


❓ FAQ – Häufige Fragen

Was ist der Unterschied zwischen RAG und Finetuning?
Finetuning verändert das Modell selbst. RAG belässt das Modell unverändert, liefert aber neue Daten in den Prompt ein.

Ist RAG DSGVO-konform?
Ja – wenn du keine personenbezogenen Daten direkt im Prompt überträgst und deine Quellen sauber verwaltest.

Kann ich RAG mit GPT-4 verwenden?
Ja, über eigene Infrastruktur oder z. B. Azure GPT-4 in Verbindung mit einem Retrieval-Modul wie LangChain + Qdrant.

Was ist besser: Pinecone oder Qdrant?
Für Selbsthosting: Qdrant. Für skalierbare SaaS-Integrationen: Pinecone oder Weaviate.

Wolf Galetzki

Berät Unternehmen bei der Einführung von KI und Automatisierung. Als Gründer von Datista liegt sein Fokus auf datensouveränen, anpassbaren Lösungen.

Wolf galetzki datista speaker

Alle Artikel der Serie:

Die Artikelserie "Die Mathematik hinter LLMs" umfasst insgesammt 20 Artikel. Folgende Artikel sind bereits veröffentlicht: