Warum Vertrauen der Schlüssel ist
Autonome KI-Agenten können E-Mails verarbeiten, Workflows starten, Formulare ausfüllen und externe Systeme ansteuern. Damit sie produktiv eingesetzt werden, muss der Mensch ihnen vertrauen — nicht blind, sondern durch nachvollziehbare Regeln.
Dieses Framework beschreibt 7 Prinzipien, ein Operationsmodell und konkrete Architekturmuster, die jedes Unternehmen bei der Einführung autonomer KI-Agenten umsetzen sollte.
Die 7 Prinzipien
Operationsmodell: Transient vs. Persistent
Alle Operationen eines KI-Agenten fallen in zwei Kategorien. Die Grenze bestimmt, ob eine formale Bestätigung erforderlich ist.
| Operation | Typ | Bestätigung? | Audit? |
|---|---|---|---|
| Daten lesen / klassifizieren | Transient | Nein | Ja (Abruf) |
| Interne Sortierung / Aufbereitung | Transient | Nein | Nein (intern) |
| Kontextfragen beantworten | Transient | Nein | Nein (intern) |
| Externe Systeme abfragen (IMAP, API) | Transient | Nein | Ja (Abruf) |
| Workflow starten | Persistent | Ja | Ja (vor + nach Bestätigung) |
| E-Mail senden | Persistent | Ja | Ja |
| Externen Zustand ändern | Persistent | Ja | Ja |
Confirmation Barrier
Jede persistente Operation muss die Confirmation Barrier passieren. Das Bestätigungsfenster zeigt den vollständigen Kontext: was der Agent verstanden hat, welche Parameter extrahiert wurden, und was der Workflow tun wird.
Scope = Capability Catalog
Ein KI-Agent kann ausschließlich über vordefinierte Aktionen handeln. Der Capability Catalog IST das Berechtigungssystem — was nicht im Katalog steht, wird nicht ausgeführt.
| Nutzerwunsch | Im Katalog? | Reaktion des Agenten |
|---|---|---|
| „Führe die Anmeldung aus“ | Ja | Erklärung + Confirm Card → Ausführung |
| „Lösch alle E-Mails“ | Nein | „Das kann ich nicht — dafür gibt es keine definierte Aktion.“ |
| „Schreib eine Antwort-Mail“ | Bedingt | Nur möglich, wenn ein entsprechendes Szenario definiert ist |
| „Das komplexe Angebot erstellen“ | Manuell | „Das muss manuell bearbeitet werden.“ |
Audit & Logging
Lückenlose Protokollierung ist die Grundlage für Nachvollziehbarkeit und Compliance. Jede relevante Aktion wird auditiert — lieber zu viel loggen als zu wenig.
- Jeder externe Abruf (IMAP, API, Datenbank) → Audit-Log-Eintrag
- Jede persistente Aktion → Audit (vor und nach Confirmation)
- Jeder LLM-Aufruf → Prompt-Log (Input + Output + Modell)
- Interne Verarbeitung (Sortierung, Klassifikation) → kein Audit erforderlich
- Menschliche Änderungen an Parametern → immer geloggt
Kontext & Konversation
Ein guter KI-Agent nutzt ein Timeout-basiertes Kontextmodell: Context-Slots überleben Themenwechsel, werden gecacht und automatisch bereinigt.
| Aspekt | Empfohlenes Verhalten |
|---|---|
| Kontext-Lebensdauer | Timeout-basiert (z.B. 30 Min TTL), gecacht |
| Themenwechsel | Erlaubt — erzeugt neuen Session-Kontext |
| Folgefragen | Nutzen gecachte Daten, kein erneuter Abruf |
| Session-Wiederherstellung | Per Session-ID wiederherstellbar |
Sicherheit
Offene Sicherheitsfragen, die bei der Einführung autonomer KI-Agenten adressiert werden müssen:
- Context Pollution — externe Inhalte im Session-Kontext könnten zukünftige LLM-Entscheidungen beeinflussen
- Workflow Cascade — verschachtelte Bestätigungen bei Sub-Workflows
- Autonome Hintergrund-Klassifikation — erfordert ein eigenes Sicherheitsmodell
- Konfidenz-Schwellenwerte — ab welchem Wert verweigert der Agent die Ausführung?