Teil 9 hat gezeigt, wie du ein einfaches RAG-System aufbaust – schnell, modular, mit überschaubarem Aufwand.
Doch was, wenn daraus ein stabiles, skalierbares System werden soll?
Dann braucht es mehr:
- Strukturierte Inhalte,
- kontrollierte Retrievalprozesse,
- optimierte Prompts,
- und ein Feedback-System, das lernt, was gute Antworten sind.
In diesem Teil erfährst du:
- Wie du Vektorsuche intelligent steuerst
- Warum Metadaten Gold wert sind
- Was ein Feedback-Loop leisten kann
- Wie du typische Schwächen automatisiert erkennst und verbesserst
Grundstruktur eines produktiven RAG-Systems
Ein skalierbares Retrieval-Augmented-Generation-System besteht aus:
- Datenpipeline (Import, Chunking, Indexierung)
- Retriever mit Filtersystem (Query → relevante Inhalte)
- Promptengine mit Templates & Sicherheitslogik
- LLM (lokal oder API)
- Antwortkontrolle & Feedbackanalyse
- Monitoring & Governance (optional)
→ Jedes Modul muss modular, austauschbar und erweiterbar sein.
Schritt 1: Daten sinnvoll strukturieren
Chunking mit Kontext
Nicht alles lässt sich sinnvoll in gleichlange Häppchen aufteilen.
Besser: semantisches Chunking, z. B. nach:
- Überschriften & Subheadings
- Frage-Antwort-Paaren
- Tabellenabschnitten
- Regelwerken & Prozessen
Metadaten hinzufügen
Je mehr du über deine Inhalte weißt, desto präziser wird dein Retrieval.
Typ | Beispiel |
---|---|
Kategorie | „HR“, „IT-Sicherheit“, „Vertrieb“ |
Gültigkeitszeitraum | „gültig ab 01.01.2024“ |
Autor / Quelle | „Rechtsteam“, „Produktmanagement“ |
Dokumenttyp | „Richtlinie“, „FAQ“, „Protokoll“ |
Nutzen:
- Filterbar beim Abruf
- Kontext für Prompts
- Nachvollziehbarkeit der Antwortquelle
Schritt 2: Retrieval mit Reranking & Filtern
Klassisches Retrieval
- Vektorbasierte Suche (Qdrant, Weaviate, FAISS, Pinecone)
- Embedding der Nutzerfrage → ähnliche Inhalte finden
Verbesserte Kontrolle
Technik | Nutzen |
---|---|
Metadatenfilter | Nur Inhalte bestimmter Kategorie/Quelle verwenden |
Similarity Threshold | Mindestähnlichkeit definieren |
Reranking-Modell | Inhalte mit besserer Passung priorisieren (z. B. BGE-Reranker) |
Beispiel:
Frage: „Was muss ich bei Dienstreisen beachten?“
→ Nur Inhalte aus Kategorie „HR“, Quelle „Reisekosten-Richtlinie“, gültig ab 2023
→ Reranking nach „Reisekosten“ als Fokusbegriff
Schritt 3: Promptgestaltung & Antwortsicherheit
Templates für verlässliche Prompts
Ein Prompt-Template könnte so aussehen:
Kontext:
[Hier stehen 3–5 relevante Chunks aus der Datenbank]
Frage:
[Originalfrage]
Anweisung:
Antworte nur auf Basis des bereitgestellten Kontexts. Wenn keine ausreichende Information vorhanden ist, erkläre das und gib keine erfundene Antwort.
→ So reduzierst du Halluzinationen und steigerst das Vertrauen.
Sicherheitsmaßnahmen im Prompt
- „Antworte nur mit Informationen aus dem Kontext.“
- „Nenne die Quelle am Ende der Antwort.“
- „Wenn du es nicht weißt, sag das ehrlich.“
Schritt 4: Feedback-Loop & Qualitätskontrolle
Ein echtes Produktivsystem muss lernen, was gut ist – und was nicht.
Möglichkeiten für Feedback
Methode | Umsetzung |
---|---|
Nutzerbewertung | Daumen hoch/runter + Kommentarfeld |
Antwortzeit | Langsame Antwort = Hinweis auf schlechte Chunk-Auswahl |
Klickverhalten | Werden Quellenlinks geöffnet? |
Reaktionsrate | Folgeaktionen im System? |
Rückführung ins System
- Schlechte Antworten markieren → Chunks überarbeiten
- Gute Fragen ohne passende Antwort → Inhalt ergänzen
- Beliebte Themen → Separate FAQs, Finetuning oder Chatflows
Optional: Human-in-the-Loop & Moderation
Wenn dein System sensible Inhalte verarbeitet (Recht, Medizin, HR), kann ein Human-in-the-Loop (HiTL) Mechanismus sinnvoll sein:
- Antworten gehen vor Veröffentlichung durch eine:n Moderator:in
- KI schlägt Antwort vor, Mensch prüft
- Feedback fließt ins Training oder Promptsystem zurück
HiTL ist kein Muss – aber in regulierten Branchen oft erforderlich.
Monitoring & Skalierung
Tools für Beobachtung & Pflege
Bereich | Tools / Methoden |
---|---|
Prompt Monitoring | PromptLayer, Traceloop, Langfuse |
Logging & Analyse | Prometheus + Grafana, Elasticsearch |
Metriken | Accuracy, Hitrate, Avg. Time-to-Answer |
Prompt History | Speicherbare Sessions, Replay-Tools |
Automatisierte Verbesserungen
- „Top-N“-Fragen für Training identifizieren
- Nicht beantwortbare Fragen regelmäßig clustern
- Chunk-Qualität per Nutzerfeedback priorisieren
Fazit & Ausblick
Ein produktionsreifes RAG-System ist mehr als eine LLM mit Suche:
- Es kennt deine Inhalte, aber auch ihre Struktur
- Es antwortet zuverlässig, weil du den Kontext steuerst
- Es lernt, was eine gute Antwort ist – dank Feedback-Loop
- Und es lässt sich schrittweise ausbauen
In Teil 11 der Serie zeigen wir dir:
Wie du Halluzinationen systematisch erkennst, eindämmst und vermeidest – durch Prompt-Strategien, Modellwahl und Metaprompts.
FAQ – Häufige Fragen
Kann ich RAG auch mit Open-Source-Modellen umsetzen?
Ja – Modelle wie Mistral, LLaMA, Yi oder OpenChat funktionieren mit RAG genau wie GPT-4.
Was ist Reranking – brauche ich das?
Reranking hilft, die besten Treffer aus der Vektorsuche auszuwählen. Besonders bei langen Chunks oder ähnlichen Begriffen ist das hilfreich.
Wie groß darf mein Wissensspeicher werden?
Qdrant und Weaviate skalieren problemlos auf Millionen Dokumente – wichtig ist ein gutes Chunking & Indexdesign.
Wie erkenne ich, ob eine Antwort halluziniert?
In Teil 11 zeigen wir Methoden zur Erkennung & Vermeidung von Halluzinationen.