Große Sprachmodelle sind kein Selbstläufer.
Wer sie produktiv einsetzen will, muss sich um Betrieb, Wartung und Sicherheit kümmern – genau wie bei jedem anderen IT-System.
LLMs brauchen nicht nur Rechenleistung.
Sie brauchen Struktur, Kontrolle – und Vertrauen.
In diesem Teil lernst du:
- Welche Betriebsmodelle sich für LLMs eignen
- Wie du Monitoring und Logging sinnvoll umsetzt
- Welche Sicherheits- und Datenschutzaspekte du beachten solltest
- Und wie ein nachhaltiger, wartbarer Betrieb im Unternehmen aussieht
Wo laufen LLMs überhaupt?
Drei Betriebsmodelle im Überblick:
Modell | Vorteile | Nachteile |
---|---|---|
Public API | Schnell, leistungsstark, kein Setup | Datenkontrolle eingeschränkt |
Private Cloud (z. B. Azure) | DSGVO-konform, skalierbar | Lizenzkosten, Zugriffskontrolle |
Self-Hosted (On-Prem / VM / Docker) | volle Kontrolle, datensicher | Setup-Aufwand, Wartung nötig |
→ Für Unternehmen mit sensiblen Daten ist Self-Hosting oder EU-basierte Cloud meist die richtige Wahl.
Typische LLM-Infrastruktur (Self-Hosted)
User Request
↓
Proxy/API Gateway (z. B. FastAPI, Caddy)
↓
LLM Engine (z. B. Ollama mit Mixtral)
↓
Monitoring Layer (z. B. Prometheus/Grafana)
↓
Audit / Logging (optional verschlüsselt)
→ Modular, sicher und mit klaren Verantwortlichkeiten.
Monitoring & Logging: Was zählt?
Was du beobachten solltest:
Bereich | Monitoring-Ziel |
---|---|
Modellnutzung | Anfragen pro Tag, Tokens, Fehlerquote |
Antwortqualität | Nutzerfeedback, Bewertung, Zeitverlauf |
Systemlast | RAM, GPU, CPU-Auslastung |
Fehlversuche | z. B. Zeitüberschreitung, Tool-Ausfall |
→ Tools wie Prometheus, Grafana, Loki oder Sentry helfen beim Aufsetzen eines stabilen Betriebs.
Sicherheit: 5 zentrale Maßnahmen
- API-Zugriff schützen (Token, IP-Filter, mTLS)
- Eingaben validieren (Länge, Inhalt, Sprache)
- Ausgaben prüfen (kein PII-Leak, keine toxischen Inhalte)
- Logs verschlüsseln / minimieren
- Updates & Modell-Aktualisierung regelmäßig einplanen
Besonders wichtig bei Selfhosting: keine offenen Ports, keine unnötigen Endpunkte.
Beispiel: Betrieb eines internen RAG-Systems
Use Case: Interner Wissensagent auf Unternehmensdokumenten
Setup:
- Frontend: eigene ChatUI (z. B. Open WebUI)
- Backend: Ollama mit Mistral + Qdrant Vektorsuche
- Datenpflege: automatischer Document-Crawler
- Monitoring: Prometheus + Grafana
- Security: Zugriff via VPN, 2FA + API-Key-System
- Hosting: Docker Stack auf dediziertem Server
→ Architekturberatung, Setup und Templates durch Datista® Core Fabric Toolkit möglich
Backup & Recovery: Nicht vergessen!
Was sichern? | Wie oft? |
---|---|
Konfigurationen | bei Änderung |
Logs (sensibel!) | rotierend, verschlüsselt |
Vektordatenbanken | täglich |
Modell-Installationen | wöchentlich / bei Update |
→ Am besten in Kombination mit Versionskontrolle (Git) + externem Speicher (z. B. S3, Synology, rsync-Server)
Fazit & Ausblick
Ein LLM ist kein Plugin, das man einfach einbaut.
Es ist ein aktives System – mit Wartungsbedarf, Sicherheitsansprüchen und Monitoring-Pflicht.
Aber: Richtig aufgesetzt, sind LLMs im Alltag extrem stabil, leistungsfähig – und deutlich günstiger als vermutet.
In Teil 19 ziehen wir die Bilanz:
Was können LLMs – und was (noch) nicht? Wo bleibt klassische Software überlegen?
FAQ – Häufige Fragen
Wie viele Ressourcen braucht ein selfhosted Modell wirklich?
Mixtral läuft performant mit 16–32 GB RAM + GPU. Kleinere Modelle (Yi, Gemma) reichen oft für Standardaufgaben.
Welche Logs darf ich speichern?
Nur pseudonymisierte Daten – ohne PII. Am besten: Logging abschalten oder stark limitieren. DSGVO beachten.
Wie halte ich mein Modell aktuell?
Regelmäßige Updates aus vertrauenswürdigen Quellen (z. B. HuggingFace, Mistral AI direkt). Manuelle oder CI-gesteuerte Modellwechsel.
Kann ich den Betrieb auslagern?
Ja – mit DSGVO-konformen Partnern oder White-Label-Lösungen (z. B. Datista® Infrastrukturberatung + Hostingmodelle).