10 – RAG in der Praxis: Wie du produktionsreife LLM-Systeme mit Vektorsuche und Feedback aufbaust

Teil 10 der Serie: Die Mathematik hinter großen Sprachmodellen verständlich erklärt

24 Juli 2025
Wolf galetzki datista speaker

Wolf Galetzki

Datista® – Growth through Data & AI

Mathematik der sprachmodelle
Teil 10 von 20 der Serie: Die Mathematik hinter LLMs

Teil 9 hat gezeigt, wie du ein einfaches RAG-System aufbaust – schnell, modular, mit überschaubarem Aufwand.

Doch was, wenn daraus ein stabiles, skalierbares System werden soll?

Dann braucht es mehr:

  • Strukturierte Inhalte,
  • kontrollierte Retrievalprozesse,
  • optimierte Prompts,
  • und ein Feedback-System, das lernt, was gute Antworten sind.

In diesem Teil erfährst du:

  • Wie du Vektorsuche intelligent steuerst
  • Warum Metadaten Gold wert sind
  • Was ein Feedback-Loop leisten kann
  • Wie du typische Schwächen automatisiert erkennst und verbesserst

Grundstruktur eines produktiven RAG-Systems

Ein skalierbares Retrieval-Augmented-Generation-System besteht aus:

  1. Datenpipeline (Import, Chunking, Indexierung)
  2. Retriever mit Filtersystem (Query → relevante Inhalte)
  3. Promptengine mit Templates & Sicherheitslogik
  4. LLM (lokal oder API)
  5. Antwortkontrolle & Feedbackanalyse
  6. Monitoring & Governance (optional)

→ Jedes Modul muss modular, austauschbar und erweiterbar sein.

Schritt 1: Daten sinnvoll strukturieren

Chunking mit Kontext

Nicht alles lässt sich sinnvoll in gleichlange Häppchen aufteilen.
Besser: semantisches Chunking, z. B. nach:

  • Überschriften & Subheadings
  • Frage-Antwort-Paaren
  • Tabellenabschnitten
  • Regelwerken & Prozessen

Metadaten hinzufügen

Je mehr du über deine Inhalte weißt, desto präziser wird dein Retrieval.

TypBeispiel
Kategorie„HR“, „IT-Sicherheit“, „Vertrieb“
Gültigkeitszeitraum„gültig ab 01.01.2024“
Autor / Quelle„Rechtsteam“, „Produktmanagement“
Dokumenttyp„Richtlinie“, „FAQ“, „Protokoll“

Nutzen:

  • Filterbar beim Abruf
  • Kontext für Prompts
  • Nachvollziehbarkeit der Antwortquelle

Schritt 2: Retrieval mit Reranking & Filtern

Klassisches Retrieval

  • Vektorbasierte Suche (Qdrant, Weaviate, FAISS, Pinecone)
  • Embedding der Nutzerfrage → ähnliche Inhalte finden

Verbesserte Kontrolle

TechnikNutzen
MetadatenfilterNur Inhalte bestimmter Kategorie/Quelle verwenden
Similarity ThresholdMindestähnlichkeit definieren
Reranking-ModellInhalte mit besserer Passung priorisieren (z. B. BGE-Reranker)

Beispiel:

Frage: „Was muss ich bei Dienstreisen beachten?“
→ Nur Inhalte aus Kategorie „HR“, Quelle „Reisekosten-Richtlinie“, gültig ab 2023
→ Reranking nach „Reisekosten“ als Fokusbegriff

Schritt 3: Promptgestaltung & Antwortsicherheit

Templates für verlässliche Prompts

Ein Prompt-Template könnte so aussehen:

Kontext:
[Hier stehen 3–5 relevante Chunks aus der Datenbank]

Frage:
[Originalfrage]

Anweisung:
Antworte nur auf Basis des bereitgestellten Kontexts. Wenn keine ausreichende Information vorhanden ist, erkläre das und gib keine erfundene Antwort.

→ So reduzierst du Halluzinationen und steigerst das Vertrauen.

Sicherheitsmaßnahmen im Prompt

  • „Antworte nur mit Informationen aus dem Kontext.“
  • „Nenne die Quelle am Ende der Antwort.“
  • „Wenn du es nicht weißt, sag das ehrlich.“

Schritt 4: Feedback-Loop & Qualitätskontrolle

Ein echtes Produktivsystem muss lernen, was gut ist – und was nicht.

Möglichkeiten für Feedback

MethodeUmsetzung
NutzerbewertungDaumen hoch/runter + Kommentarfeld
AntwortzeitLangsame Antwort = Hinweis auf schlechte Chunk-Auswahl
KlickverhaltenWerden Quellenlinks geöffnet?
ReaktionsrateFolgeaktionen im System?

Rückführung ins System

  • Schlechte Antworten markieren → Chunks überarbeiten
  • Gute Fragen ohne passende Antwort → Inhalt ergänzen
  • Beliebte Themen → Separate FAQs, Finetuning oder Chatflows

Optional: Human-in-the-Loop & Moderation

Wenn dein System sensible Inhalte verarbeitet (Recht, Medizin, HR), kann ein Human-in-the-Loop (HiTL) Mechanismus sinnvoll sein:

  • Antworten gehen vor Veröffentlichung durch eine:n Moderator:in
  • KI schlägt Antwort vor, Mensch prüft
  • Feedback fließt ins Training oder Promptsystem zurück

HiTL ist kein Muss – aber in regulierten Branchen oft erforderlich.

Monitoring & Skalierung

Tools für Beobachtung & Pflege

BereichTools / Methoden
Prompt MonitoringPromptLayer, Traceloop, Langfuse
Logging & AnalysePrometheus + Grafana, Elasticsearch
MetrikenAccuracy, Hitrate, Avg. Time-to-Answer
Prompt HistorySpeicherbare Sessions, Replay-Tools

Automatisierte Verbesserungen

  • „Top-N“-Fragen für Training identifizieren
  • Nicht beantwortbare Fragen regelmäßig clustern
  • Chunk-Qualität per Nutzerfeedback priorisieren

Fazit & Ausblick

Ein produktionsreifes RAG-System ist mehr als eine LLM mit Suche:

  • Es kennt deine Inhalte, aber auch ihre Struktur
  • Es antwortet zuverlässig, weil du den Kontext steuerst
  • Es lernt, was eine gute Antwort ist – dank Feedback-Loop
  • Und es lässt sich schrittweise ausbauen

In Teil 11 der Serie zeigen wir dir:
Wie du Halluzinationen systematisch erkennst, eindämmst und vermeidest – durch Prompt-Strategien, Modellwahl und Metaprompts.


FAQ – Häufige Fragen

Kann ich RAG auch mit Open-Source-Modellen umsetzen?
Ja – Modelle wie Mistral, LLaMA, Yi oder OpenChat funktionieren mit RAG genau wie GPT-4.

Was ist Reranking – brauche ich das?
Reranking hilft, die besten Treffer aus der Vektorsuche auszuwählen. Besonders bei langen Chunks oder ähnlichen Begriffen ist das hilfreich.

Wie groß darf mein Wissensspeicher werden?
Qdrant und Weaviate skalieren problemlos auf Millionen Dokumente – wichtig ist ein gutes Chunking & Indexdesign.

Wie erkenne ich, ob eine Antwort halluziniert?
In Teil 11 zeigen wir Methoden zur Erkennung & Vermeidung von Halluzinationen.

Wolf Galetzki

Berät Unternehmen bei der Einführung von KI und Automatisierung. Als Gründer von Datista liegt sein Fokus auf datensouveränen, anpassbaren Lösungen.

Wolf galetzki datista speaker

Alle Artikel der Serie:

Die Artikelserie "Die Mathematik hinter LLMs" umfasst insgesammt 20 Artikel. Folgende Artikel sind bereits veröffentlicht: