09 – Wissen statt Raten: Wie RAG Sprachmodelle auf dein Unternehmen trainiert – ohne Training – Datista®

Sprachmodelle wie GPT-4 sind beeindruckend – aber sie haben ein zentrales Problem:
Sie erfinden Dinge. Oder wie es in der Fachsprache heißt: „Sie halluzinieren.“

Was aber, wenn du möchtest, dass ein Modell nur mit deinem Wissen antwortet – z. B. aus internen PDFs, Datenbanken oder Richtlinien?

Dann kommt RAG ins Spiel: Retrieval-Augmented Generation.

In diesem Artikel erfährst du:

Was RAG ist – und wie es funktioniert
Warum es oft besser ist als Finetuning
Welche Tools du brauchst
Wie ein typischer RAG-Workflow aussieht
Welche Risiken und Grenzen es gibt

Was ist RAG – und warum braucht man das?

LLMs haben zwei Probleme im Unternehmenskontext:

Ihr Wissen ist veraltet (Trainingsstand meist >6 Monate alt)
Sie kennen deine Daten nicht (z. B. dein Intranet, deine Produktlogik)

Lösung: Das Modell nutzt aktuelle & interne Daten bei jeder Antwort.

RAG bedeutet: Das Modell recherchiert vor der Antwort – es zieht sich passende Inhalte aus einer externen Wissensquelle, statt einfach alles zu raten.

Vorteile gegenüber klassischem Finetuning:

Kriterium	RAG	Finetuning
Aktualisierbarkeit	jederzeit neue Inhalte laden	jedes Mal neu trainieren
Datenschutz	keine festen Daten im Modell	Daten dauerhaft integriert
Flexibilität	Inhalte austauschbar	feste „Verankerung“
Infrastruktur	leichtgewichtig, API-basiert	GPU-Cluster + Expertise nötig

RAG ist wie ein LLM mit eingebautem Wissensmanager – es denkt nicht „aus dem Bauch“, sondern sucht zuerst nach Kontext.

Wie funktioniert ein RAG-System?

RAG besteht aus drei Hauptkomponenten:

Retriever
→ durchsucht externe Inhalte (z. B. PDFs, Datenbank-Einträge)
RAG-Pipeline
→ kombiniert User-Frage + Fundstellen zu einem optimierten Prompt
Generator (LLM)
→ formuliert eine Antwort – auf Basis des gefundenen Kontexts

Typischer Ablauf:

textKopierenUserfrage → Retriever sucht Kontext → Prompt wird gebaut → LLM antwortet mit Quellenbezug

Beispielkomponenten (modular):

Funktion	Tool/Libs
Chunking	LangChain, LlamaIndex, Haystack
Vektorsuche	Qdrant, Weaviate, FAISS, Pinecone
Embeddings	HuggingFace, OpenAI, Azure, E5, BAAI
LLM	GPT-4, Mistral, LLaMA, Claude, Gemini
Prompt-Logik	Templates, Chain-of-Thought, ReAct

Welche Daten eignen sich für RAG?

RAG kann (fast) jede Textquelle verarbeiten – du musst nur die Struktur in den Griff bekommen.

Geeignete Quellen:

Interne PDF-Dokumente
Webseiten & Intranets
Datenbankeinträge (nach Export)
CSVs, JSON, XML
PowerPoint, Word, E-Mails (nach Umwandlung)

Wichtig: „Chunking“ entscheidet

Ein RAG-System teilt Inhalte in kleine, semantisch sinnvolle Stücke (Chunks) auf – z. B. Absätze, FAQs oder Kapitelüberschriften.
Zu kleine Chunks = Kontext verloren. Zu große Chunks = relevante Infos übersehen.

Faustregel: Lieber inhaltlich trennen (Thema, Satzstruktur) als technisch (nach Zeichenlänge).

Beispiel: FAQ-RAG für den Support

Frage: „Was passiert, wenn mein Passwort abläuft?“
→ RAG sucht im Intranet-Export nach Textstellen wie:

„Passwörter müssen alle 90 Tage geändert werden. Bei Ablauf erhalten Sie eine Erinnerungsmail…“

Dann baut das System folgenden Prompt:

„Ein Nutzer hat gefragt: ‘Was passiert, wenn mein Passwort abläuft?’
Hier ist ein Auszug aus dem internen Regelwerk:
[…]
Formuliere bitte eine hilfreiche Antwort auf Basis dieses Wissens.“

→ Das Modell antwortet korrekt und mit Kontext – obwohl es die Antwort vorher nie „gelernt“ hat.

Architekturvarianten: Light vs. Heavy RAG

Variante 1: Leichtgewichtige RAG-API (ideal für KMU)

Lokale Dateien oder Nextcloud-Ordner
Embeddings mit SentenceTransformers (E5, BAAI)
Vektorsuche über Qdrant oder FAISS
Antwortgenerierung mit GPT-4 oder Mixtral
→ Eingebettet in Chat-UI oder Support-Modul

Variante 2: Unternehmens-RAG mit Live-Index

Daten-ETL in Echtzeit (PDF + SQL + SharePoint + API)
Custom Chunking & Klassifikation
Scoring & Ranking der Retrieval-Ergebnisse
Reranking durch Mini-LLM oder BGE
Antwortverlinkung & Quellenanzeige

Fallstricke & Grenzen

RAG ist kein Wundermittel. Typische Probleme:

Problem	Lösung / Hinweis
Kontext passt nicht zur Frage	Reranking / Query Expansion nötig
Nutzerfrage ist zu unpräzise	Prompt-Optimierung
Datensätze veraltet	Versionierung / regelmäßiges Crawling
Falsche Antwort trotz gutem Kontext	Prompt war zu schwach
Halluzination bleibt möglich	Zwinge Antwort auf Kontext zu basieren („Answer only using…“)

Best Practices für RAG

Chunke semantisch, nicht technisch.
Nutze hochwertige Embeddings. (z. B. E5, OpenAI ada-002, BGE-large)
Baue Prompt-Templates mit Kontextpflicht.
Zeige Quellen an, wenn möglich.
Trenne UI/UX sauber vom Backend.

Fazit & Ausblick

RAG ist ein einfacher, aber mächtiger Weg, um eigene Daten mit Sprachmodellen zu kombinieren – ohne Trainingsaufwand.

Wer RAG sauber aufsetzt, erhält ein System, das:

präziser antwortet
weniger halluziniert
einfacher pflegbar ist
und auch mit Open-Source-Modellen funktioniert

In Teil 10 der Serie zeigen wir:
Wie du RAG mit Vektorsuche, Metadatenfilter und Feedback-Loop kombinierst, um produktionsreife KI-Assistenten zu bauen.

❓ FAQ – Häufige Fragen

Was ist der Unterschied zwischen RAG und Finetuning?
Finetuning verändert das Modell selbst. RAG belässt das Modell unverändert, liefert aber neue Daten in den Prompt ein.

Ist RAG DSGVO-konform?
Ja – wenn du keine personenbezogenen Daten direkt im Prompt überträgst und deine Quellen sauber verwaltest.

Kann ich RAG mit GPT-4 verwenden?
Ja, über eigene Infrastruktur oder z. B. Azure GPT-4 in Verbindung mit einem Retrieval-Modul wie LangChain + Qdrant.

Was ist besser: Pinecone oder Qdrant?
Für Selbsthosting: Qdrant. Für skalierbare SaaS-Integrationen: Pinecone oder Weaviate.

09 – Wissen statt Raten: Wie RAG Sprachmodelle auf dein Unternehmen trainiert – ohne Training