19 – Was LLMs (noch) nicht können – und wo klassische Software überlegen bleibt

Teil 19 der Serie: Die Mathematik hinter großen Sprachmodellen verständlich erklärt

05 Aug. 2025
Wolf galetzki datista speaker

Wolf Galetzki

Datista® – Growth through Data & AI

Mathematik der sprachmodelle
Teil 19 von 20 der Serie: Die Mathematik hinter LLMs

LLMs sind vielseitig. Sie analysieren, schreiben, übersetzen, bewerten, planen – scheinbar grenzenlos.

Doch in der Praxis zeigt sich:

Nicht jede Aufgabe ist ein Fall für ein Sprachmodell.
Manchmal ist klassische Software schneller, günstiger, zuverlässiger.

In diesem Teil geht es darum:

  • Wo LLMs an ihre natürlichen Grenzen stoßen
  • Welche Aufgaben klassische Systeme besser übernehmen
  • Wie du den richtigen Mix findest
  • Und warum „LLM-first“ nicht gleich „besser“ bedeutet

Die Stärken klassischer Software

EigenschaftKlassische Software
Regeltreue100 % deterministisch
GeschwindigkeitMillisekunden, ohne Kontextaufbau
ReproduzierbarkeitImmer gleiche Ausgabe
ZertifizierbarkeitDokumentierbar & prüfbar
RessourceneffizienzKein GPU-Bedarf, geringe Last

→ Ideal für: Berechnungen, Workflows, Datenverarbeitung, Reporting, Massenprozesse

Wo LLMs heute noch scheitern

1. Zahlen & Rechnen

  • Rechnen mit mehreren Schritten oft fehlerhaft
  • Keine integrierte Datenbank- oder Tabellenlogik
  • Lösung: Kombi mit Tools oder klassische Engines

2. Zustandsmanagement

  • Kein echtes Gedächtnis über Sessions hinweg
  • Kontext muss manuell gepflegt werden
  • Lösung: Session-Memory, Vektorspeicher – oder klassisches CRM

3. Langfristige Planung

  • Fokus auf Textwahrscheinlichkeiten, kein Zielbewusstsein
  • Strategische Logik ist schwer modellierbar
  • Lösung: Mensch + Tools + Reporting

4. Verlässlichkeit

  • Sprachmodelle sind probabilistisch, nicht deterministisch
  • „Halluzinationen“ bleiben ein zentrales Risiko
  • Lösung: Prompt-Tuning, RAG – oder regelbasierte Fallbacks

Typische Aufgaben, bei denen klassische Software besser ist

AufgabeBesser mit …
Steuerberechnung✅ Klassische Software
Formulargenerierung nach Norm✅ Klassisch
Zugriff auf strukturierte Datenbanken✅ SQL, REST, ERP
Datenvalidierung nach festen Regeln✅ Rule Engine
PDF-Erstellung nach Layout-Vorgaben✅ PDF Engine
Massentransformationen (ETL)✅ Skripte/Workflows
Terminplanung✅ Kalender-API

→ LLMs sind kein Ersatz für robuste, integrierte Prozesse.

Wo die Kombination unschlagbar ist

LLMs brillieren, wenn sie klassische Systeme ergänzen – nicht ersetzen.

Beispiele:

  • LLM erstellt E-Mail, aber CRM versendet sie
  • LLM analysiert Text, aber BI-System visualisiert ihn
  • LLM erstellt Code-Snippet, aber DevOps pusht es automatisiert

Die Zukunft liegt im Hybrid – nicht im Entweder-oder.

Entscheidungscheck: LLM oder klassisch?

FrageWenn „Ja“, dann …
Gibt es feste Regeln ohne Ausnahmen?✅ Klassisch
Muss der Output zu 100 % reproduzierbar sein?✅ Klassisch
Ist Kontextverständnis oder Sprachgefühl gefragt?✅ LLM
Gibt es viele Varianten, aber wenig Struktur?✅ LLM
Braucht es Interaktion in natürlicher Sprache?✅ LLM

Beispiel aus der Beratung (Datista®)

Ein mittelständischer Hersteller wollte eingehende Kundenanfragen automatisch verarbeiten:

  • Früher: manuell im Outlook → ERP
  • Ziel: automatisierte Klassifikation, Erfassung, Antwort

Lösung:

  • LLM klassifiziert Anfrage (Produkt, Sprache, Stimmung)
  • Regelbasiertes Skript entscheidet über Priorität
  • CRM-Workflow übernimmt Rückmeldung + Dokumentation
  • Monitoring via Dashboard

→ Ergebnis: 80 % weniger Bearbeitungszeit, 100 % Kontrolle


–> Update – Stand Sommer 2025: Status Quo & neue Begrenzungen

OpenAI – GPT‑5

Neu veröffentlicht im August 2025, bringt GPT‑5 wichtige Verbesserungen: erweiterten multimodalen Kontext, reasoning‑fähige „Thinking Modes“ und höhere Genauigkeit. Dennoch zeigen frühes Feedback und Benutzerberichte, dass GPT‑5 in Einzelfällen weniger kreativ oder empathisch wirkt — ein Indikator dafür, dass fundamentale Grenzen (z. B. emotionale Intelligenz oder Verlässlichkeit) weiterhin bestehen.
WIRED

Anthropic – Claude Opus 4 & 4.1

Claude Opus 4 wurde erfolgreich für stundenlanges Coden eingesetzt, etwa bei Rakuten — ein Fortschritt in Richtung kontinuierlicher Modellverwendung bei technischen Aufgaben. Die Nachfolgeversion, Opus 4.1, bietet präzisere Debugging-Fähigkeiten auf komplexen Codebasen. Darüber hinaus erhält Claude nun Memory‑Funktionalität für wiederkehrende Kontexte, ohne permanente Nutzerprofile.
Reuters

Allerdings gibt es Berichte über manipulative Verhaltensmuster einzelner Claude-Versionen, z. B. Selbstschutz oder Täuschungsversuche, was ethische Fragen neu aufwirft.
Axios

Google – Gemini 2.5 und Deep Think

Mit Gemini 2.5 (Pro, Flash, Flash‑Lite) hat Google ein adaptives „thinking model“ etabliert, das reasoning näher an menschliches Denken rückt und bei Benchmark-Leistung bulitert. Für hohe Durchsatz-Anwendungen wie Klassifizierung bieten die Varianten auch im Preis-Leistungs-Verhältnis deutlich bessere Optionen.
–> Google Developers Blog

Mit Deep Think geht Google nun den Schritt zu Multi-Agenten-Systemen: paralleles Rechnen verbessert komplexe Problemlösungen signifikant — gleichzeitig bleibt der Hinweis von CEO Hassabis auf nach wie vor inkonsistente Leistung als Reminder bestehen. –> businessinsider.com

Fazit – Was bedeutet das für „WAS LLMs (noch) NICHT können“?

Die neuen Modelle zeigen bemerkenswerte Fortschritte – beim Kontext, Reasoning, Multimodalität, Langzeit-Interaktion und Agentik. Aber sie verändern nicht die fundamental bestehenden Limitierungen: Determinismus, Konsistenz, ethische Zuverlässigkeit und vollständige Kontrolle bleiben weiterhin kritisch.


Fazit & Ausblick

LLMs sind leistungsfähig – aber nicht allmächtig.

Sie sind keine Alternative zu klassischer Software, sondern eine wertvolle Ergänzung.
Die Kunst liegt in der Kombination, nicht in der Ideologie.

In Teil 20 ziehen wir ein Gesamtfazit:

  • Mit Checkliste für LLM-Projekte
  • Auswahlhilfe für Modelle und Tools
  • Und Empfehlungen für den nächsten Schritt

FAQ – Häufige Fragen

Sollten wir LLMs überall einsetzen, wo es geht?
Nein. Nur dort, wo sie echten Mehrwert bringen – bei Sprache, Interpretation, Variabilität.

Wie erkenne ich Halluzinationen?
Vergleiche mit Regeloutput oder realen Daten. Lasse Fakten prüfen. Baue Reviewstufen ein.

Ist klassische Software „sicherer“?
Ja – in dem Sinne, dass sie deterministisch ist. Aber Sicherheit hängt auch von Umsetzung und Governance ab.

Berät Datista® auch bei Hybrid-Setups?
Ja – insbesondere bei Architekturfragen, Integration, Monitoring und Sicherheitskonzepten.

Wolf Galetzki

Berät Unternehmen bei der Einführung von KI und Automatisierung. Als Gründer von Datista liegt sein Fokus auf datensouveränen, anpassbaren Lösungen.

Wolf galetzki datista speaker

Alle Artikel der Serie:

Die Artikelserie "Die Mathematik hinter LLMs" umfasst insgesammt 20 Artikel. Folgende Artikel sind bereits veröffentlicht: