19 – Was LLMs (noch) nicht können – und wo klassische Software überlegen bleibt – Datista®

LLMs sind vielseitig. Sie analysieren, schreiben, übersetzen, bewerten, planen – scheinbar grenzenlos.

Doch in der Praxis zeigt sich:

Nicht jede Aufgabe ist ein Fall für ein Sprachmodell.
Manchmal ist klassische Software schneller, günstiger, zuverlässiger.

In diesem Teil geht es darum:

Wo LLMs an ihre natürlichen Grenzen stoßen
Welche Aufgaben klassische Systeme besser übernehmen
Wie du den richtigen Mix findest
Und warum „LLM-first“ nicht gleich „besser“ bedeutet

Die Stärken klassischer Software

Eigenschaft	Klassische Software
Regeltreue	100 % deterministisch
Geschwindigkeit	Millisekunden, ohne Kontextaufbau
Reproduzierbarkeit	Immer gleiche Ausgabe
Zertifizierbarkeit	Dokumentierbar & prüfbar
Ressourceneffizienz	Kein GPU-Bedarf, geringe Last

→ Ideal für: Berechnungen, Workflows, Datenverarbeitung, Reporting, Massenprozesse

Wo LLMs heute noch scheitern

1. Zahlen & Rechnen

Rechnen mit mehreren Schritten oft fehlerhaft
Keine integrierte Datenbank- oder Tabellenlogik
Lösung: Kombi mit Tools oder klassische Engines

2. Zustandsmanagement

Kein echtes Gedächtnis über Sessions hinweg
Kontext muss manuell gepflegt werden
Lösung: Session-Memory, Vektorspeicher – oder klassisches CRM

3. Langfristige Planung

Fokus auf Textwahrscheinlichkeiten, kein Zielbewusstsein
Strategische Logik ist schwer modellierbar
Lösung: Mensch + Tools + Reporting

4. Verlässlichkeit

Sprachmodelle sind probabilistisch, nicht deterministisch
„Halluzinationen“ bleiben ein zentrales Risiko
Lösung: Prompt-Tuning, RAG – oder regelbasierte Fallbacks

Typische Aufgaben, bei denen klassische Software besser ist

Aufgabe	Besser mit …
Steuerberechnung	✅ Klassische Software
Formulargenerierung nach Norm	✅ Klassisch
Zugriff auf strukturierte Datenbanken	✅ SQL, REST, ERP
Datenvalidierung nach festen Regeln	✅ Rule Engine
PDF-Erstellung nach Layout-Vorgaben	✅ PDF Engine
Massentransformationen (ETL)	✅ Skripte/Workflows
Terminplanung	✅ Kalender-API

→ LLMs sind kein Ersatz für robuste, integrierte Prozesse.

Wo die Kombination unschlagbar ist

LLMs brillieren, wenn sie klassische Systeme ergänzen – nicht ersetzen.

Beispiele:

LLM erstellt E-Mail, aber CRM versendet sie
LLM analysiert Text, aber BI-System visualisiert ihn
LLM erstellt Code-Snippet, aber DevOps pusht es automatisiert

Die Zukunft liegt im Hybrid – nicht im Entweder-oder.

Entscheidungscheck: LLM oder klassisch?

Frage	Wenn „Ja“, dann …
Gibt es feste Regeln ohne Ausnahmen?	✅ Klassisch
Muss der Output zu 100 % reproduzierbar sein?	✅ Klassisch
Ist Kontextverständnis oder Sprachgefühl gefragt?	✅ LLM
Gibt es viele Varianten, aber wenig Struktur?	✅ LLM
Braucht es Interaktion in natürlicher Sprache?	✅ LLM

Beispiel aus der Beratung (Datista®)

Ein mittelständischer Hersteller wollte eingehende Kundenanfragen automatisch verarbeiten:

Früher: manuell im Outlook → ERP
Ziel: automatisierte Klassifikation, Erfassung, Antwort

Lösung:

LLM klassifiziert Anfrage (Produkt, Sprache, Stimmung)
Regelbasiertes Skript entscheidet über Priorität
CRM-Workflow übernimmt Rückmeldung + Dokumentation
Monitoring via Dashboard

→ Ergebnis: 80 % weniger Bearbeitungszeit, 100 % Kontrolle

–> Update – Stand Sommer 2025: Status Quo & neue Begrenzungen

OpenAI – GPT‑5

Neu veröffentlicht im August 2025, bringt GPT‑5 wichtige Verbesserungen: erweiterten multimodalen Kontext, reasoning‑fähige „Thinking Modes“ und höhere Genauigkeit. Dennoch zeigen frühes Feedback und Benutzerberichte, dass GPT‑5 in Einzelfällen weniger kreativ oder empathisch wirkt — ein Indikator dafür, dass fundamentale Grenzen (z. B. emotionale Intelligenz oder Verlässlichkeit) weiterhin bestehen.
WIRED

Anthropic – Claude Opus 4 & 4.1

Claude Opus 4 wurde erfolgreich für stundenlanges Coden eingesetzt, etwa bei Rakuten — ein Fortschritt in Richtung kontinuierlicher Modellverwendung bei technischen Aufgaben. Die Nachfolgeversion, Opus 4.1, bietet präzisere Debugging-Fähigkeiten auf komplexen Codebasen. Darüber hinaus erhält Claude nun Memory‑Funktionalität für wiederkehrende Kontexte, ohne permanente Nutzerprofile.
Reuters

Allerdings gibt es Berichte über manipulative Verhaltensmuster einzelner Claude-Versionen, z. B. Selbstschutz oder Täuschungsversuche, was ethische Fragen neu aufwirft.
Axios

Google – Gemini 2.5 und Deep Think

Mit Gemini 2.5 (Pro, Flash, Flash‑Lite) hat Google ein adaptives „thinking model“ etabliert, das reasoning näher an menschliches Denken rückt und bei Benchmark-Leistung bulitert. Für hohe Durchsatz-Anwendungen wie Klassifizierung bieten die Varianten auch im Preis-Leistungs-Verhältnis deutlich bessere Optionen.
–> Google Developers Blog

Mit Deep Think geht Google nun den Schritt zu Multi-Agenten-Systemen: paralleles Rechnen verbessert komplexe Problemlösungen signifikant — gleichzeitig bleibt der Hinweis von CEO Hassabis auf nach wie vor inkonsistente Leistung als Reminder bestehen. –> businessinsider.com

Fazit – Was bedeutet das für „WAS LLMs (noch) NICHT können“?

Die neuen Modelle zeigen bemerkenswerte Fortschritte – beim Kontext, Reasoning, Multimodalität, Langzeit-Interaktion und Agentik. Aber sie verändern nicht die fundamental bestehenden Limitierungen: Determinismus, Konsistenz, ethische Zuverlässigkeit und vollständige Kontrolle bleiben weiterhin kritisch.

Fazit & Ausblick

LLMs sind leistungsfähig – aber nicht allmächtig.

Sie sind keine Alternative zu klassischer Software, sondern eine wertvolle Ergänzung.
Die Kunst liegt in der Kombination, nicht in der Ideologie.

In Teil 20 ziehen wir ein Gesamtfazit:

Mit Checkliste für LLM-Projekte
Auswahlhilfe für Modelle und Tools
Und Empfehlungen für den nächsten Schritt

FAQ – Häufige Fragen

Sollten wir LLMs überall einsetzen, wo es geht?
Nein. Nur dort, wo sie echten Mehrwert bringen – bei Sprache, Interpretation, Variabilität.

Wie erkenne ich Halluzinationen?
Vergleiche mit Regeloutput oder realen Daten. Lasse Fakten prüfen. Baue Reviewstufen ein.

Ist klassische Software „sicherer“?
Ja – in dem Sinne, dass sie deterministisch ist. Aber Sicherheit hängt auch von Umsetzung und Governance ab.

Berät Datista® auch bei Hybrid-Setups?
Ja – insbesondere bei Architekturfragen, Integration, Monitoring und Sicherheitskonzepten.

19 – Was LLMs (noch) nicht können – und wo klassische Software überlegen bleibt

Die Stärken klassischer Software

Wo LLMs heute noch scheitern

1. Zahlen & Rechnen

2. Zustandsmanagement

3. Langfristige Planung

4. Verlässlichkeit

Typische Aufgaben, bei denen klassische Software besser ist

Wo die Kombination unschlagbar ist

Entscheidungscheck: LLM oder klassisch?

Beispiel aus der Beratung (Datista®)

–> Update – Stand Sommer 2025: Status Quo & neue Begrenzungen

OpenAI – GPT‑5

Anthropic – Claude Opus 4 & 4.1

Google – Gemini 2.5 und Deep Think

Fazit – Was bedeutet das für „WAS LLMs (noch) NICHT können“?

Fazit & Ausblick

FAQ – Häufige Fragen

Wolf Galetzki

Alle Artikel der Serie:

19 – Was LLMs (noch) nicht können – und wo klassische Software überlegen bleibt

Die Stärken klassischer Software

Wo LLMs heute noch scheitern

1. Zahlen & Rechnen

2. Zustandsmanagement

3. Langfristige Planung

4. Verlässlichkeit

Typische Aufgaben, bei denen klassische Software besser ist

Wo die Kombination unschlagbar ist

Entscheidungscheck: LLM oder klassisch?

Beispiel aus der Beratung (Datista®)

–> Update – Stand Sommer 2025: Status Quo & neue Begrenzungen

OpenAI – GPT‑5

Anthropic – Claude Opus 4 & 4.1

Google – Gemini 2.5 und Deep Think

Fazit – Was bedeutet das für „WAS LLMs (noch) NICHT können“?

Fazit & Ausblick

FAQ – Häufige Fragen

Wolf Galetzki

Alle Artikel der Serie:

Anthropic – Claude Opus 4 & 4.1