18 – LLMs in der Praxis betreiben: Infrastruktur, Monitoring & Sicherheit

Teil 18 der Serie: Die Mathematik hinter großen Sprachmodellen verständlich erklärt

04 Aug. 2025
Wolf galetzki datista speaker

Wolf Galetzki

Datista® – Growth through Data & AI

Mathematik der sprachmodelle
Teil 18 von 20 der Serie: Die Mathematik hinter LLMs

Große Sprachmodelle sind kein Selbstläufer.

Wer sie produktiv einsetzen will, muss sich um Betrieb, Wartung und Sicherheit kümmern – genau wie bei jedem anderen IT-System.

LLMs brauchen nicht nur Rechenleistung.
Sie brauchen Struktur, Kontrolle – und Vertrauen.

In diesem Teil lernst du:

  • Welche Betriebsmodelle sich für LLMs eignen
  • Wie du Monitoring und Logging sinnvoll umsetzt
  • Welche Sicherheits- und Datenschutzaspekte du beachten solltest
  • Und wie ein nachhaltiger, wartbarer Betrieb im Unternehmen aussieht

Wo laufen LLMs überhaupt?

Drei Betriebsmodelle im Überblick:

ModellVorteileNachteile
Public APISchnell, leistungsstark, kein SetupDatenkontrolle eingeschränkt
Private Cloud (z. B. Azure)DSGVO-konform, skalierbarLizenzkosten, Zugriffskontrolle
Self-Hosted (On-Prem / VM / Docker)volle Kontrolle, datensicherSetup-Aufwand, Wartung nötig

→ Für Unternehmen mit sensiblen Daten ist Self-Hosting oder EU-basierte Cloud meist die richtige Wahl.

Typische LLM-Infrastruktur (Self-Hosted)

User Request

Proxy/API Gateway (z. B. FastAPI, Caddy)

LLM Engine (z. B. Ollama mit Mixtral)

Monitoring Layer (z. B. Prometheus/Grafana)

Audit / Logging (optional verschlüsselt)

→ Modular, sicher und mit klaren Verantwortlichkeiten.

Monitoring & Logging: Was zählt?

Was du beobachten solltest:

BereichMonitoring-Ziel
ModellnutzungAnfragen pro Tag, Tokens, Fehlerquote
AntwortqualitätNutzerfeedback, Bewertung, Zeitverlauf
SystemlastRAM, GPU, CPU-Auslastung
Fehlversuchez. B. Zeitüberschreitung, Tool-Ausfall

→ Tools wie Prometheus, Grafana, Loki oder Sentry helfen beim Aufsetzen eines stabilen Betriebs.

Sicherheit: 5 zentrale Maßnahmen

  1. API-Zugriff schützen (Token, IP-Filter, mTLS)
  2. Eingaben validieren (Länge, Inhalt, Sprache)
  3. Ausgaben prüfen (kein PII-Leak, keine toxischen Inhalte)
  4. Logs verschlüsseln / minimieren
  5. Updates & Modell-Aktualisierung regelmäßig einplanen

Besonders wichtig bei Selfhosting: keine offenen Ports, keine unnötigen Endpunkte.

Beispiel: Betrieb eines internen RAG-Systems

Use Case: Interner Wissensagent auf Unternehmensdokumenten

Setup:

  • Frontend: eigene ChatUI (z. B. Open WebUI)
  • Backend: Ollama mit Mistral + Qdrant Vektorsuche
  • Datenpflege: automatischer Document-Crawler
  • Monitoring: Prometheus + Grafana
  • Security: Zugriff via VPN, 2FA + API-Key-System
  • Hosting: Docker Stack auf dediziertem Server

→ Architekturberatung, Setup und Templates durch Datista® Core Fabric Toolkit möglich

Backup & Recovery: Nicht vergessen!

Was sichern?Wie oft?
Konfigurationenbei Änderung
Logs (sensibel!)rotierend, verschlüsselt
Vektordatenbankentäglich
Modell-Installationenwöchentlich / bei Update

→ Am besten in Kombination mit Versionskontrolle (Git) + externem Speicher (z. B. S3, Synology, rsync-Server)

Fazit & Ausblick

Ein LLM ist kein Plugin, das man einfach einbaut.
Es ist ein aktives System – mit Wartungsbedarf, Sicherheitsansprüchen und Monitoring-Pflicht.

Aber: Richtig aufgesetzt, sind LLMs im Alltag extrem stabil, leistungsfähig – und deutlich günstiger als vermutet.

In Teil 19 ziehen wir die Bilanz:
Was können LLMs – und was (noch) nicht? Wo bleibt klassische Software überlegen?


FAQ – Häufige Fragen

Wie viele Ressourcen braucht ein selfhosted Modell wirklich?
Mixtral läuft performant mit 16–32 GB RAM + GPU. Kleinere Modelle (Yi, Gemma) reichen oft für Standardaufgaben.

Welche Logs darf ich speichern?
Nur pseudonymisierte Daten – ohne PII. Am besten: Logging abschalten oder stark limitieren. DSGVO beachten.

Wie halte ich mein Modell aktuell?
Regelmäßige Updates aus vertrauenswürdigen Quellen (z. B. HuggingFace, Mistral AI direkt). Manuelle oder CI-gesteuerte Modellwechsel.

Kann ich den Betrieb auslagern?
Ja – mit DSGVO-konformen Partnern oder White-Label-Lösungen (z. B. Datista® Infrastrukturberatung + Hostingmodelle).

Wolf Galetzki

Berät Unternehmen bei der Einführung von KI und Automatisierung. Als Gründer von Datista liegt sein Fokus auf datensouveränen, anpassbaren Lösungen.

Wolf galetzki datista speaker

Alle Artikel der Serie:

Die Artikelserie "Die Mathematik hinter LLMs" umfasst insgesammt 20 Artikel. Folgende Artikel sind bereits veröffentlicht: