Autonome KI-Agenten können E-Mails verarbeiten, Workflows starten, Formulare ausfüllen und externe Systeme ansteuern. Damit sie produktiv eingesetzt werden, muss der Mensch ihnen vertrauen — nicht blind, sondern durch nachvollziehbare Regeln.

Dieses Framework beschreibt 7 Prinzipien, ein Operationsmodell und konkrete Architekturmuster, die jedes Unternehmen bei der Einführung autonomer KI-Agenten umsetzen sollte.

1
Der Agent handelt nie ohne zu fragen
Jede persistente Operation erfordert eine formale Bestätigung durch den Menschen — die Confirmation Barrier.
2
Der Agent ist transparent
Er zeigt, was er verstanden hat, was er tun wird, und was er nicht kann. Keine versteckten Aktionen, keine Überraschungen.
3
Der Agent kennt seine Grenzen
Scope = Capability Catalog. Der Agent kommuniziert seine Grenzen ehrlich — nicht als Fehler, sondern als definierte Eigenschaft.
4
Der Agent ist vorsichtig mit externen Daten
E-Mail-Inhalte, API-Antworten und Dokumenteninhalte sind untrusted Input. Vor der Ausführung immer mit dem Nutzer verifizieren.
5
Der Agent merkt sich den Kontext
Timeout-basiertes Kontextmanagement — überlebt Themenwechsel, gecacht für Effizienz, automatische Bereinigung.
6
Der Agent ist Single-Task
Ein Workflow gleichzeitig. Kein paralleles Ausführen, keine versteckte Batch-Verarbeitung. Proaktive Kommunikation über nächste Schritte.
7
Der Agent loggt alles
Jeder externe Abruf, jede Entscheidung, jede menschliche Änderung, jeder LLM-Aufruf. Lückenlose Nachvollziehbarkeit.

Alle Operationen eines KI-Agenten fallen in zwei Kategorien. Die Grenze bestimmt, ob eine formale Bestätigung erforderlich ist.

Operation Typ Bestätigung? Audit?
Daten lesen / klassifizieren Transient Nein Ja (Abruf)
Interne Sortierung / Aufbereitung Transient Nein Nein (intern)
Kontextfragen beantworten Transient Nein Nein (intern)
Externe Systeme abfragen (IMAP, API) Transient Nein Ja (Abruf)
Workflow starten Persistent Ja Ja (vor + nach Bestätigung)
E-Mail senden Persistent Ja Ja
Externen Zustand ändern Persistent Ja Ja
Schlüsselunterscheidung: Der Abruf selbst (z.B. „alle E-Mails lesen“) IST auditierbar — er ist eine nachverfolgbare Aktion. Aber die Sortierung/Klassifikation der abgerufenen Daten ist nicht auditpflichtig (interne Verarbeitung).

Jede persistente Operation muss die Confirmation Barrier passieren. Das Bestätigungsfenster zeigt den vollständigen Kontext: was der Agent verstanden hat, welche Parameter extrahiert wurden, und was der Workflow tun wird.

Nutzer wählt AktionChat oder Klick
Agent erklärt„Explain before Act“
Confirm CardWorkflow + Parameter + Vorschau
Nutzer bestätigt„Ja“ / „Nein“
Workflow startetErst jetzt
Explain before Act: Ein vertrauenswürdiger Agent startet nie blind. Bei niedriger Konfidenz fragt er den Menschen. Kein autonomes Raten — kein Handeln ohne Rückfrage.

Ein KI-Agent kann ausschließlich über vordefinierte Aktionen handeln. Der Capability Catalog IST das Berechtigungssystem — was nicht im Katalog steht, wird nicht ausgeführt.

Nutzerwunsch Im Katalog? Reaktion des Agenten
„Führe die Anmeldung aus“ Ja Erklärung + Confirm Card → Ausführung
„Lösch alle E-Mails“ Nein „Das kann ich nicht — dafür gibt es keine definierte Aktion.“
„Schreib eine Antwort-Mail“ Bedingt Nur möglich, wenn ein entsprechendes Szenario definiert ist
„Das komplexe Angebot erstellen“ Manuell „Das muss manuell bearbeitet werden.“

Lückenlose Protokollierung ist die Grundlage für Nachvollziehbarkeit und Compliance. Jede relevante Aktion wird auditiert — lieber zu viel loggen als zu wenig.

  • Jeder externe Abruf (IMAP, API, Datenbank) → Audit-Log-Eintrag
  • Jede persistente Aktion → Audit (vor und nach Confirmation)
  • Jeder LLM-Aufruf → Prompt-Log (Input + Output + Modell)
  • Interne Verarbeitung (Sortierung, Klassifikation) → kein Audit erforderlich
  • Menschliche Änderungen an Parametern → immer geloggt

Ein guter KI-Agent nutzt ein Timeout-basiertes Kontextmodell: Context-Slots überleben Themenwechsel, werden gecacht und automatisch bereinigt.

Aspekt Empfohlenes Verhalten
Kontext-Lebensdauer Timeout-basiert (z.B. 30 Min TTL), gecacht
Themenwechsel Erlaubt — erzeugt neuen Session-Kontext
Folgefragen Nutzen gecachte Daten, kein erneuter Abruf
Session-Wiederherstellung Per Session-ID wiederherstellbar
Externe Daten = Untrusted Input. Anweisungen aus E-Mail-Inhalten, API-Antworten oder Dokumenten werden nie direkt ausgeführt. Die Confirmation Barrier verhindert, dass Prompt Injection die Ausführungsebene erreicht.

Offene Sicherheitsfragen, die bei der Einführung autonomer KI-Agenten adressiert werden müssen:

  • Context Pollution — externe Inhalte im Session-Kontext könnten zukünftige LLM-Entscheidungen beeinflussen
  • Workflow Cascade — verschachtelte Bestätigungen bei Sub-Workflows
  • Autonome Hintergrund-Klassifikation — erfordert ein eigenes Sicherheitsmodell
  • Konfidenz-Schwellenwerte — ab welchem Wert verweigert der Agent die Ausführung?
Was ist eine Confirmation Barrier bei KI-Agenten?
Eine Confirmation Barrier ist ein Architekturmuster, das sicherstellt, dass ein KI-Agent keine persistente Aktion (z.B. Workflow starten, E-Mail senden, externe Systeme ändern) ohne explizite Bestätigung durch einen Menschen ausführt. Der Agent erklärt zuerst, was er verstanden hat und was er tun wird, bevor der Nutzer die Aktion freigibt.
Wie verhindert man Prompt Injection bei autonomen KI-Agenten?
Externe Daten (E-Mails, API-Antworten, Dokumente) müssen als untrusted Input behandelt werden. Anweisungen aus externen Quellen dürfen nie direkt ausgeführt werden. Die Confirmation Barrier stellt sicher, dass auch bei manipuliertem Input keine Aktion ohne menschliche Bestätigung erfolgt. Zusätzlich sollte Context Pollution vermieden werden, indem externe Inhalte isoliert im Session-Kontext gehalten werden.
Warum brauchen KI-Agenten einen begrenzten Scope?
Ein begrenzter Scope (Capability Catalog) dient als Berechtigungssystem. Der Agent kann ausschließlich vordefinierte Aktionen ausführen — was nicht im Katalog steht, wird verweigert. Das verhindert unkontrollierte Aktionen, macht das System auditierbar und gibt dem Betreiber volle Kontrolle darüber, was der Agent kann und was nicht.