Ein Large Language Model (LLM) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wurde, um die statistische Wahrscheinlichkeit des nächsten Tokens (Wort-Fragments) vorherzusagen. Aus dieser scheinbar simplen Aufgabe emergiert die Fähigkeit zu Reasoning, Codegenerierung, Zusammenfassung, Übersetzung und mehr.
Nicht alle KI-Modelle sind LLMs. Für Automatisierungsprojekte gibt es spezialisierte Typen, die für bestimmte Aufgaben besser geeignet sind als ein Allzweck-LLM.
Allzweck-Sprachmodell
Text verstehen, generieren, umstrukturieren. Basis aller modernen Chat-Systeme. Beispiele: GPT-4, Claude, Llama, Mistral.
Entitäts-Erkennung
Erkennt strukturierte Objekte in Text: Personen, Orte, Datumsangaben, Firmennamen, Vertragsnummern. Oft kleines spezialisiertes Modell, sehr schnell.
Klassifikationsmodell
Ordnet Text einer von N Kategorien zu. Z.B. Sentiment, Dokumenttyp, Priorität. Kann auch mit LLM-Prompting simuliert werden.
Vektor-Einbettung
Wandelt Text in numerische Vektoren um, die semantische Ähnlichkeit repräsentieren. Grundlage für RAG und Semantic Search.
Bild + Text
Versteht sowohl Bilder als auch Text. Für OCR, Dokumentenanalyse, Screenshot-Verarbeitung. Beispiele: GPT-4o, Claude 3, LLaVA.
Sprache ↔ Text
Automatic Speech Recognition (Whisper) und Text-to-Speech. Relevant für Spracheingabe und Sprachausgabe in Automatisierungssystemen.
Kompakte Modelle
Phi-3, Gemma 2B, Qwen 1.5B — laufen auf CPU oder Consumer-GPU. Für einfache Routing-Aufgaben oder On-Device-Szenarien.
Ergebnis-Ranker
Bewertet Dokument-Relevanz nach initialem Retrieval neu. Cross-Encoder-Architektur. Verbessert RAG-Qualität erheblich.
LLMs lassen sich grob in Leistungsklassen einteilen — relevant für Kostenplanung, Aufgabenverteilung und Architekturentscheidungen.
| Level | Beispiele | Stärken | Typischer Einsatz |
|---|---|---|---|
| Frontier Top | GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro | Komplexes Reasoning, langer Kontext, multimodal, Coding, Analyse | Kernlogik, komplexe Workflow-Entscheidungen, Drafting |
| Mid-Tier Balanced | Claude 3 Haiku, GPT-4o mini, Gemini Flash, Mistral Large | Gutes Verhältnis Preis/Leistung, schnell, gut für strukturierte Tasks | Standard-Routing, häufige einfache Anfragen, Bulk-Verarbeitung |
| Small / Local On-Prem | Llama 3 8B, Mistral 7B, Phi-3 Mini, Qwen2 7B | Läuft on-premise, keine Datenweitergabe, günstig bei Skalierung | Datensouveränität, DSGVO-konforme Szenarien |
| Spezialisiert Task-Specific | CodeLlama, MedLlama, FinGPT, Legal-BERT | Auf Domäne optimiert, oft kleiner und effizienter als Allzweck-Modelle | Optionale Spezialisierung je Branche |
Ein intelligentes Automatisierungssystem kann als Model-Router fungieren: einfache Anfragen gehen an ein kleines lokales Modell (schnell, günstig), komplexe Anfragen werden an ein größeres Modell eskaliert. Das ist die Grundlage für ein kosteneffizientes, DSGVO-konformes Tier-System.
Eine der wichtigsten Architekturentscheidungen: Wann reicht es, dem Modell zur Laufzeit mehr Wissen mitzugeben — und wann muss das Modell neu trainiert werden?
Kontext erweitern (kein Training)
Das Basis-Modell bleibt unverändert. Wissen wird zur Laufzeit in den Prompt eingespeist — entweder direkt oder per Retrieval (RAG). Schnell, flexibel, kein GPU-Aufwand.
Modell trainieren / Fine-Tunen
Das Modell wird mit eigenen Daten weitertrainiert, sodass das Wissen in den Gewichten verankert ist. Aufwändig, kostspielig, aber für bestimmte Aufgaben notwendig.
Es gibt verschiedene Abstufungen — von „gar kein Training“ bis zu „Modell von Grund auf neu trainieren“:
| Methode | Was wird verändert? | Wann sinnvoll? | Aufwand |
|---|---|---|---|
| System-Prompt | Nichts — nur Kontext | Immer als Erstes versuchen. Rolle, Regeln, Format vorgeben. | Minimal |
| Few-Shot Prompting | Nichts — nur Kontext | Wenn Format/Stil konsistent sein muss. 3–10 Beispiele im Prompt. | Minimal |
| RAG | Nichts am Modell — externe Wissensbasis | Wenn aktuelle/proprietäre Daten benötigt werden. Standard-Lösung für Enterprise. | Mittel |
| Fine-Tuning (LoRA) | Kleine Teilmenge der Gewichte | Wenn Stil/Ton/Format konsistent sein muss, Prompting nicht reicht. | Hoch |
| Full Fine-Tuning | Alle Gewichte | Selten notwendig. Wenn LoRA nicht ausreicht. | Sehr Hoch |
| Pre-Training (Domain) | Basiswissen des Modells | Für stark spezialisierte Domänen (Medizin, Recht, Code) mit riesigen Textkorpora. | Extrem |
Für den typischen Automatisierungs-Usecase (Dokumente verarbeiten, Formulare ausfüllen, internes Unternehmenswissen nutzen) ist RAG + System-Prompt der richtige Einstieg — kein Training notwendig. Fine-Tuning wird erst interessant, wenn konsistenter Ausgabe-Stil (z.B. Behördensprache, Branchenformat) erzwungen werden soll.
RAG ist die Standardarchitektur für Enterprise-LLM-Systeme. Statt Wissen ins Modell zu trainieren, wird es zur Laufzeit aus einer Wissensbasis abgerufen und in den Kontext eingespeist.
Für Automatisierung entscheidend: LLMs können nicht nur Freitext ausgeben, sondern zuverlässig strukturierte Daten und Aktionen erzeugen.
Für Unternehmen mit hohen Anforderungen an Datenschutz und Datensouveränität sind lokale Modelle zentral. Das bringt eigene Anforderungen mit sich.
Vorteile
Keine Datenweitergabe an Cloud-Anbieter. Vorhersagbare Latenz. Keine API-Kosten bei Skalierung. Betrieb ohne Internet möglich. Volle Kontrolle über Modellversion.
Herausforderungen
GPU-Hardware notwendig (oder CPU mit Abstrichen). Kleinere lokale Modelle haben Qualitätslücken zu Frontier-Modellen. Modell-Updates müssen manuell gehandhabt werden.
Schnelle Orientierung für häufige Architekturentscheidungen:
| Situation | Empfehlung |
|---|---|
| Modell soll interne Dokumente kennen | → RAG |
| Modell soll immer in bestimmtem Format antworten | → System-Prompt + Few-Shot; wenn nicht ausreichend: Fine-Tuning |
| Datenschutz ist kritisch (DSGVO, Behörde) | → On-Premise lokales Modell (Llama, Mistral) |
| Höchste Qualität, keine On-Prem-Pflicht | → Frontier API (GPT-4o, Claude 3.5) |
| Viele strukturierte Felder aus Text extrahieren | → LLM mit JSON Mode oder NER-Modell |
| Sehr einfache Klassifikation (Ja/Nein, Typ A/B) | → Kleines Classifier-Modell oder GPT-4o mini |
| Komplexer mehrstufiger Workflow | → Agentic Loop mit Tool Use |
| Latenz < 500ms notwendig | → Kleine Modelle (Haiku, Flash, Phi-3) + Caching |
LLMs haben systematische Schwächen, die nicht durch bessere Prompts verschwinden. Wer mit Modellen produktiv arbeitet, muss diese kennen — und Architekturen bauen, die damit umgehen.
Alphabetische Kurzreferenz aller zentralen Begriffe.
Braucht mein Unternehmen Fine-Tuning?
In den meisten Fällen nicht. Für die große Mehrheit der Business-Anwendungen — Dokumentenverarbeitung, E-Mail-Analyse, Formularautomatisierung — reicht RAG + System-Prompt vollständig aus. Fine-Tuning wird erst relevant, wenn Sie einen sehr spezifischen Ausgabestil benötigen oder die Prompt-Länge zum Latenz-Problem wird.
Können LLMs on-premise DSGVO-konform betrieben werden?
Ja. Modelle wie Llama 3, Mistral und Qwen können vollständig lokal über Ollama oder vLLM betrieben werden. Es verlassen keine Daten das Unternehmensnetzwerk. Die Qualität lokaler Modelle liegt unter der von Frontier-Modellen, ist aber für viele strukturierte Aufgaben ausreichend — besonders in Kombination mit einem Model-Router, der komplexe Anfragen bei Bedarf eskaliert.
Was kostet der Betrieb eines LLM?
Das hängt vom Ansatz ab. Cloud-APIs berechnen pro Token (GPT-4o: ~5–15 USD pro Million Tokens). On-premise fallen einmalig Hardware-Kosten an (GPU-Server ab ca. 3.000 EUR für kleine Modelle), dafür keine laufenden API-Kosten. Für Unternehmen mit hohem Volumen wird On-Premise schnell kosteneffizient.