07 – Eigene LLMs im Unternehmen: Hosting, Modelle & Tools für den sicheren Einsatz

Teil 7 der Serie: Die Mathematik hinter großen Sprachmodellen verständlich erklärt

21 Juli 2025
Wolf galetzki datista speaker

Wolf Galetzki

Datista® – Growth through Data & AI

Mathematik der sprachmodelle

In Teil 6 der Serie haben wir gesehen, wie unterschiedlich LLMs aufgebaut sein können – je nach Ziel, Medium und Spezialisierung.

Doch was bedeutet das für Unternehmen, die eigene KI-Lösungen entwickeln oder integrieren wollen?

In diesem Artikel zeigen wir dir:

  • Welche Hosting-Optionen zur Verfügung stehen (Cloud, Hybrid, On-Prem)
  • Welche Modelle sich wirklich für den unternehmensweiten Einsatz eignen
  • Welche Tools du für eine skalierbare Infrastruktur brauchst
  • Wie du erste Use Cases sicher entwickelst
  • Und was du in Sachen Datenschutz & Regulierung bereits im Blick haben solltest

Hostingoptionen: Wo soll dein LLM laufen?

Bevor es um das was geht, musst du das wo klären:
Wo soll dein Sprachmodell betrieben werden – und wer kontrolliert es?

Option 1: Öffentliche Cloud (API-basiert)

VorteileNachteile
Schnell & skalierbarAbhängigkeit vom Anbieter
WartungsfreiDaten verlassen dein Netzwerk
Zugriff auf Top-ModelleBegrenzte Anpassbarkeit

Typische Anbieter:
OpenAI (über Azure), Google Cloud (Gemini), Anthropic (Claude via AWS)

Option 2: Private Cloud / Hybrid

VorteileNachteile
Mehr Kontrolle, trotzdem skalierbarTechnisch komplexer
Daten bleiben weitgehend internIntegration erfordert Know-how
Anpassbare SicherheitsarchitekturGgf. Lizenzkosten für Modelle

Typische Setups:
Azure OpenAI, VMware + LLaMA, AWS Bedrock + Mixtral

Option 3: On-Premises (Selfhosted)

VorteileNachteile
Volle DatenhoheitHoher Betriebsaufwand
Keine externen DrittdiensteInfrastruktur & Expertise nötig
DSGVO- & AI-Act-konform umsetzbarModelltraining nur begrenzt möglich

Geeignet für:
IT-starke Unternehmen, kritische Infrastrukturen, hohe Compliance-Anforderungen

Modellwahl: Welche LLMs eignen sich wirklich?

Die Auswahl hängt stark vom Anwendungsfall ab – und davon, ob du nur konsumierst oder selbst hostest.

Open-Source-Modelle (Selfhosted möglich)

ModellTypVorteile
LLaMA 3GeneralStarke Basis, breit einsetzbar
Mistral / MixtralGeneralSchnell, effizient, gute Lizenzierung
DeepSeek-V2CodeFür technische Use Cases
Yi-34BGeneralSolide Open-Alternative
OpenChat / ZephyrChatGut finetuned, direkt einsetzbar

→ Alle Modelle lassen sich auf lokalen Servern oder in privaten Clouds betreiben.

Kommerzielle APIs mit EU-Option

AnbieterModell(e)HostingoptionenDSGVO-freundlich
MicrosoftGPT-4 via AzureEU-Datencenter, SLAs möglich✅ (konfigurierbar)
Aleph AlphaLuminousDeutschland (Heidelberg)
OpenGPT-XDiverseEU-Projekt, lokal möglich
Gretel.aiTextsynthetikEU-Cloudoptionen✅ (je nach Setup)

Wichtig: “DSGVO-freundlich” bedeutet nicht automatisch rechtlich sicher. Mehr dazu im Compliance-Abschnitt.

Toolstack: Was du brauchst für produktive LLM-Nutzung

Grundbausteine

  • LLM-Inferenzserver (z. B. vLLM, TGI, Ollama)
  • Vektorsuche (Qdrant, Weaviate, Pinecone, Elasticsearch)
  • RAG-Framework (LangChain, LlamaIndex, Haystack)
  • Prompt-Management (PromptLayer, Guidance, ReAct-Pattern)

Optional für Skalierung

  • Load Balancer / API Gateway
  • GPU-Autoscaling / Kubernetes / Docker Swarm
  • Logging & Monitoring (Prometheus, Grafana)
  • Frontend (Chat UI, Plugin-UI, Custom Dashboards)

Ergebnis: Ein System, das skalierbar, wartbar und auditierbar ist – ideal für Unternehmen mit vielen Prozessen.

Einstieg: Wie du sinnvoll loslegst

Quick-Start für KMUs:

  1. Use Case identifizieren (z. B. FAQ-Automation, Protokoll-Zusammenfassung)
  2. Modell evaluieren (Cloud vs. lokal, Open Source vs. API)
  3. Datenstruktur aufbereiten (Stichwort: Retrieval-Augmented Generation)
  4. Kleiner Piloten bauen (z. B. über LangChain + Ollama)
  5. Feedback messen & verbessern

Langfristige Skalierung:

  • Rollen & Verantwortlichkeiten klären (KI-Beauftragte, IT, Legal)
  • MLOps-Prozesse etablieren
  • Sicherheitsarchitektur definieren (Audit-Logs, Zugriffskontrolle)
  • Governance & Modellpflege regeln

Compliance & Risiko: Erste Orientierung

Auch wenn dein KI-System technisch gut läuft – rechtlich sind weitere Anforderungen zu erfüllen.

DSGVO-Kriterien (Auswahl)

  • Wer ist verantwortlich für Datenverarbeitung?
  • Wurden personenbezogene Daten im Training genutzt?
  • Ist die Antwort nachvollziehbar / erklärbar?
  • Gibt es ein Verfahren zur Löschung / Korrektur?

AI Act – Was kommt?

  • Risikoklassen: Dein Einsatzszenario bestimmt das Regelwerk
  • Verpflichtende Dokumentation & Testing je nach Kategorie
  • Transparenzpflichten bei Generativer KI
  • Bestimmte Anwendungsarten (z. B. Deepfakes) werden reguliert

Hinweis:
In Teil 8 der Serie gehen wir genau darauf ein:
Was bedeutet der AI Act konkret für Unternehmen – und wie kannst du sicher und wirtschaftlich compliant arbeiten?

Fazit & Ausblick

Wer KI im Unternehmen einsetzen will, braucht mehr als nur ein gutes Modell:

  • Wo soll dein Modell laufen? Cloud, Hybrid oder lokal?
  • Wie gut passt das Modell zur Aufgabe?
  • Welche Tools brauchst du für Betrieb, Monitoring & Pflege?
  • Welche rechtlichen Rahmenbedingungen musst du im Blick behalten?

Die gute Nachricht: Der Werkzeugkasten ist vorhanden – und viele Lösungen sind schneller einsatzbereit als erwartet.

In Teil 8 der Serie zeigen wir dir:
Wie du rechtlich auf der sicheren Seite bleibst – von DSGVO bis AI Act.


FAQ – Häufige Fragen

Kann ich ein LLM im eigenen Unternehmen betreiben?
Ja – viele Open-Source-Modelle sind leichtgewichtig und auch ohne Hochleistungsrechenzentrum nutzbar.

Brauche ich eine eigene GPU-Infrastruktur?
Nicht unbedingt. Für Prototypen reichen moderne CPUs oder Shared GPU-Server. Für produktiven Einsatz sind dedizierte GPUs empfehlenswert.

Was ist RAG?
„Retrieval-Augmented Generation“ – ein Verfahren, bei dem externe Datenquellen mit in die Modellantwort einfließen.

Sind Azure GPT-Modelle DSGVO-konform?
Sie können es sein – wenn sie in der EU gehostet und entsprechend konfiguriert werden. Eine genaue Prüfung ist ratsam.

Wolf Galetzki

Berät Unternehmen bei der Einführung von KI und Automatisierung. Als Gründer von Datista liegt sein Fokus auf datensouveränen, anpassbaren Lösungen.

Wolf galetzki datista speaker

Alle Artikel der Serie:

Die Artikelserie "Die Mathematik hinter LLMs" umfasst insgesammt 20 Artikel. Folgende Artikel sind bereits veröffentlicht: