In Teil 5 der Serie haben wir das Innenleben eines Transformers kennengelernt.
Heute wechseln wir die Perspektive: Was passiert nach dem Training – wenn LLMs „in die Welt kommen“?
Denn nicht jedes Sprachmodell funktioniert gleich:
Einige sind Alleskönner, andere spezialisierte Werkzeuge. Einige verstehen Sprache, andere sehen, hören oder programmieren.
In diesem Teil schauen wir auf:
- Die verschiedenen Typen von LLMs
- Ihre Zielsetzungen und Spezialisierungen
- Den Einfluss von Multimodalität und API-Anbindung
- Die Bedeutung von Sicherheit, Steuerbarkeit und Energieeffizienz
LLM-Typen im Überblick: Vom Generalisten zum Spezialisten
LLMs lassen sich grob in drei Anwendungsgruppen einteilen:
Typ | Zielsetzung | Beispielmodelle |
---|---|---|
General Purpose | Breite Sprachverarbeitung | GPT-4, Claude 3 Sonnet, Gemini Pro |
Fachmodell | Domänenspezifische Anwendungen | Med-PaLM, BloombergGPT, LawGPT |
Werkzeugmodell | Klar umrissene Aufgaben | DeepSeek-Coder, Claude 3 Opus, Devin |
Generalisten verstehen viel, aber oft oberflächlich. Spezialisten liefern bessere Ergebnisse in ihrem Bereich – sind aber weniger flexibel.
Spezialisierung: Wie sich LLMs auf Aufgaben trimmen lassen
Viele Modelle entstehen heute durch Finetuning oder Instruction Tuning auf bestimmte Themenbereiche.
Beispiele:
- Medizinische Modelle wie Med-PaLM oder BioGPT sind auf Fachvokabular, Klassifikationen und klinische Entscheidungslogik trainiert.
- Finanzmodelle wie BloombergGPT analysieren Marktnachrichten, Berichte und Börsenzahlen.
- Juristische Modelle wie LawGPT wurden mit Gesetzestexten, Urteilen und Kommentaren trainiert – oft auch mit Argumentationsdaten.
Diese Spezialisierungen führen zu höherer Genauigkeit, aber auch zu einem schmaleren Anwendungsbereich.
Multimodalität: Wenn Modelle mehr als Text verstehen
Moderne Modelle können zunehmend auch Bilder, Audio oder Video verarbeiten.
Modus | Beispiele | Genutzte Modelle |
---|---|---|
Text → Bild | Prompt zu Illustration (DALL·E, Midjourney) | DALL·E, Stable Diffusion, Ideogram |
Bild → Text | Bildbeschreibung, OCR | Gemini 1.5, GPT-4V, Claude 3 |
Audio → Text | Spracherkennung | Whisper, Gemini, OpenVoice |
Video → Analyse | Bewegungs- und Szenenerkennung | Runway, Pika Labs, DeepMind RT-2 |
Diese multimodalen Systeme bestehen meist aus Kombinationen mehrerer Modelle – oder bauen auf Transformer-Varianten mit speziellen Eingabeschichten auf.
Beispiel: Claude vs. GPT vs. Gemini im Vergleich
Merkmal | GPT-4 (OpenAI) | Claude 3 Opus (Anthropic) | Gemini 1.5 Pro (Google) |
---|---|---|---|
Kontextfenster | bis zu 128k | bis zu 200k | bis zu 1 Mio+ (Streaming) |
Multimodalität | Bildverarbeitung | Text + Bild (stark) | Text, Bild, Audio |
API-Zugriff | Ja | Teilweise (über Partner) | Ja |
„Persönlichkeit“ | Sachlich, präzise | Hilfsbereit, vorsichtig | Konstruktiv, analytisch |
Spezialisierung | Allgemein & Plugins | Constitutional AI, Code | Recherche, Tools, Planung |
→ Trotz ähnlicher Grundarchitektur unterscheiden sich die Modelle im Verhalten, Zugriff und Zielpublikum.
Weitere Differenzierungsmerkmale
LLMs lassen sich nicht nur durch ihre Inhalte unterscheiden, sondern auch durch technische und strategische Eigenschaften:
Zugriffstyp
- Open-Source (z. B. LLaMA 3, Mistral, DeepSeek): lokal nutzbar, voll kontrollierbar
- API-only (z. B. GPT-4, Claude): cloudbasiert, aber wartungsfrei
- Hybridmodelle: lokale Basismodelle + API-Erweiterung (z. B. RAG mit ChatGPT)
Sicherheitsmodell
- Manche Modelle setzen auf RLHF + Moderation, andere auf konstitutionelle Prinzipien (z. B. Claude)
- Die Transparenz beim Training ist bei Open-Source-Modellen höher
Steuerbarkeit
- Modelle wie GPT-4 lassen sich via System-Prompts feinjustieren
- Andere wie Claude interpretieren implizite soziale Regeln stärker (z. B. Harm Reduction)
Rechenaufwand & Energieverbrauch
- Große Modelle mit 100 + Billionen Parametern sind energieintensiv
- Kompakte Modelle (Phi-3, Mistral) bieten vergleichbare Leistung mit weniger Ressourcen
Anwendungstypen im Überblick
Anwendung | Beispielmodell(e) | Typ |
---|---|---|
Chatbots | GPT-4, Claude, Gemini | General Purpose |
Medizintechnik | Med-PaLM, BioGPT | Fachmodell |
Rechtsauskünfte | LawGPT, JuriGPT | Fachmodell |
Codegenerierung | DeepSeek-Coder, GPT-4, CodeLLaMA | Werkzeugmodell |
Dokumentenextraktion | Donut, LayoutLMv3 | Spezialarchitektur |
Videoanalyse | Runway, DeepMind RT-2 | Multimodal |
Wissensdatenbanken | Perplexity AI, You.com, RAG-Systeme | Recherche + Retrieval |
Fazit & Ausblick
Große Sprachmodelle sind nicht nur statistische Textergänzer, sondern lassen sich heute präzise auf ihre Rolle abstimmen:
- Ob Generalist oder Spezialist
- Ob Text, Bild oder Audio
- Ob API-Dienst oder On-Premises-Modell
Der Schlüssel liegt in der Kombination aus Architektur, Training und Anwendung – und darin, wie sinnvoll diese zusammengefügt werden.
In Teil 7 der Serie gehen wir noch einen Schritt weiter:
Wie können Unternehmen eigene, sichere LLM-Lösungen aufbauen – lokal oder hybrid – und welche Open-Source-Modelle eignen sich dafür wirklich?
FAQ – Häufige Fragen
Was ist ein Fachmodell?
Ein Modell, das auf bestimmte Themenbereiche (z. B. Medizin oder Recht) spezialisiert wurde – meist durch Finetuning.
Was bedeutet multimodal?
Das Modell kann mit mehreren Arten von Daten umgehen – z. B. Text und Bilder gleichzeitig.
Sind Open-Source-Modelle schlechter als GPT-4?
Nicht zwangsläufig – viele Open-Source-Modelle erreichen heute GPT-3.5-Niveau oder besser, sind aber flexibler einsetzbar.
Welches Modell ist das „beste“?
Kommt darauf an: GPT-4 ist sehr stark im allgemeinen Sprachgebrauch, Claude punktet bei Sicherheit und Empathie, Gemini bei Kontextumfang und Tools.