17 – LLMs orchestrieren: Decision Routing und Multi-Model-Strategien verstehen

Teil 17 der Serie: Die Mathematik hinter großen Sprachmodellen verständlich erklärt

01 Aug. 2025
Wolf galetzki datista speaker

Wolf Galetzki

Datista® – Growth through Data & AI

Mathematik der sprachmodelle
Teil 17 von 20 der Serie: Die Mathematik hinter LLMs

Viele glauben: „Ich brauche nur das beste Modell – dann läuft alles.“
Doch die Realität in Unternehmen sieht anders aus.

Nicht ein Modell macht den Unterschied.
Sondern die richtige Kombination aus Modellen, Regeln und Routing.

In diesem Teil erfährst du:

  • Warum ein einzelnes Modell selten die beste Lösung ist
  • Wie Decision Routing funktioniert
  • Welche Szenarien Multi-Model-Setups erfordern
  • Und wie du deine Architektur modular, sicher und skalierbar gestaltest

Was ist Decision Routing?

Decision Routing ist ein Mechanismus, der entscheidet, welches Modell oder welcher Verarbeitungspfad bei welchem Input verwendet wird.

Vergleichbar mit einem Router im Netzwerk – aber für Aufgaben, Sprache oder Sensitivität.

Warum Multi-Model überhaupt?

Ein einziges Modell ist oft:

  • zu teuer für Standardaufgaben
  • zu langsam für Echtzeitantworten
  • zu ungenau bei Spezialfällen
  • nicht DSGVO-konform für sensible Daten

→ Deshalb nutzen viele Systeme mehrere Modelle parallel – je nach Use Case, Sensitivität, Sprache oder Datenlage.

Architekturüberblick: Orchestrierung von LLMs

User-Input

Decision Layer (Rule + ML-basiert)
↓ ↓ ↓
Tiny Modell Open Source GPT-4 / Claude
(Quick Match) (Standardfälle) (Kritische Fälle)
↓ ↓ ↓
Postprocessing, Logging, Monitoring

→ Entscheidungslogik basiert auf Regeln, Scores oder Klassifikationsergebnissen.

Kriterien für Modellwahl im Routing

KriteriumBeispiel
SpracheDeutsch → Aleph Alpha / Mistral
Aufwand / Kosten„Einfache Zusammenfassung“ → Yi 6B
SicherheitsbedarfHR-Daten → Selfhosted LLM via Ollama
Erforderliche Kontextlänge32k Tokens? → Claude 3 Opus
Reaktionszeit<1 s nötig? → Distilled Modell

In vielen Fällen ist ein günstiges Modell mit gutem Prompt besser als das teuerste Modell blind verwendet.

Beispiele aus der Praxis

Szenario 1: Internes Ticket-System

AnforderungModell
Priorisierung & KategorieMistral / Yi (selfhosted)
Compliance-Risiken prüfenGPT-4 (Azure)
Summary für ManagementClaude 3 Sonnet (klarer Stil)

→ Entscheidung per Routing-Node in n8n oder custom Decision Layer

Szenario 2: Kundenportal – Fragen beantworten

EingabeartModell
Standardfrage (FAQ)Mixtral (selfhosted)
Komplexe technische RückfrageClaude 3 Opus
Anfrage mit personenbezogenen DatenAleph Alpha (EU Cloud)

→ Optional: First-Step durch Klassifikationsmodell

Entscheidungslogik – regelbasiert vs. ML-gestützt

MethodeVorteilNachteil
RegelbasiertEinfach zu verstehenschwer zu skalieren
ML-gestütztDynamisch, adaptivschwer zu debuggen
HybridKontrolle + Flexibilitätkomplexere Implementierung

→ Im Unternehmenskontext meist: regelbasierter MVP → ML-basiertes Tuning

Tools & Frameworks für Multi-Model-Orchestrierung

ToolEinsatz
n8nRouting, Trigger, Monitoring
LangChainRouter Chains, Multi-Prompting
DSPyModularisierung + Prompt-Komposition
FastAPI / FlaskEigenes Routing-Layer bauen
Datista® Core FabricAPI-first Plattform für sichere Modellorchestrierung, DSGVO-konform (auf Anfrage)

Datenschutz und Hosting: Welche Modelle sind einsetzbar?

Modell / AnbieterDSGVO-konform einsetzbar?Besonderheit
GPT-4 via Azure✅ (je nach Vertrag)Enterprise-fähig, weltweit verfügbar
Claude 3 via Amazon Bedrock (EU)Gute Sprache, v.a. bei mehrsprachigen Inhalten
Aleph Alpha (EU)explizit DSGVO-orientiert
Mixtral / Yi (Ollama)✅ (Selfhosted)Flexibel, lokal betreibbar
OpenAI direkt⚠️Keine garantierte DSGVO-Konformität

→ Wer auf Nummer sicher gehen will, setzt auf selfhosted oder dedizierte EU-Cloud-Modelle – z. B. mit Architekturberatung durch Datista®.

Beispiel-Strategie für kleine/mittlere Unternehmen

80 % der Anfragen → Open-Source-Modell (Mixtral, Yi, Gemma)
15 % Spezialfälle → Cloud-Modell via Azure (GPT-4, Claude)
5 % sensible Daten → lokales LLM auf eigenem Server
Routing erfolgt über n8n oder eigene API-Schicht

→ Niedrige Kosten, hohe Kontrolle, einfache Skalierung

Fazit & Ausblick

Modellwahl ist kein Entweder-oder – sondern eine Architekturentscheidung.
Decision Routing und Multi-Model-Strategien bieten:

  • Kostenersparnis
  • bessere Performance für spezifische Aufgaben
  • Datensouveränität durch gezielte Modellwahl

In Teil 18 geht es weiter mit der Umsetzung:
Wie du Infrastruktur, Monitoring und Sicherheit bei LLM-Systemen aufbaust – auch mit begrenzten Ressourcen.


FAQ – Häufige Fragen

Wie viele Modelle sollte ich einsetzen?
So wenige wie nötig – meist 2–3 reichen aus. Starte einfach, erweitere bei Bedarf.

Kann ich mit n8n wirklich Modelle routen?
Ja. Du kannst APIs aufrufen, Entscheidungen per IF-Node treffen oder Scores aus Klassifikatoren nutzen.

Wie sicher sind selfhosted Modelle wirklich?
Technisch sicher – wenn gut konfiguriert. DSGVO-konform – sofern Logs, Access und Datenpflege stimmen.

Berät Datista® auch zu solchen Architekturen?
Ja – mit Fokus auf modulare, datensouveräne Systeme, die skalierbar und wartbar sind. Auch als White-Label möglich.

Wolf Galetzki

Berät Unternehmen bei der Einführung von KI und Automatisierung. Als Gründer von Datista liegt sein Fokus auf datensouveränen, anpassbaren Lösungen.

Wolf galetzki datista speaker

Alle Artikel der Serie:

Die Artikelserie "Die Mathematik hinter LLMs" umfasst insgesammt 20 Artikel. Folgende Artikel sind bereits veröffentlicht: