AI Harness — Kontrollierbarkeit und menschliche Aufsicht für KI-Agenten

Q: Was ist der Unterschied zwischen Harness und Guardrails?

Guardrails sind oft Filter, die Ein- oder Ausgaben prüfen - zum Beispiel Prompt-Injection-Detection oder Content-Filter. Ein Harness ist umfassender: er definiert den gesamten Handlungsrahmen des Agenten, inklusive Werkzeuge, Scope, Freigabe-Logik und Audit. Guardrails sind Teil eines Harness, aber nicht sein Ganzes.

Was ist ein Harness?

Jeder KI-Agent, den man im Alltag erlebt, ist mehr als nur das Sprachmodell. Claude Code ist nicht einfach Claude. Codex ist nicht einfach ein GPT. Cursor ist nicht einfach ein LLM im Editor. Dazwischen liegt eine Schicht, die darüber entscheidet, welche Werkzeuge der Agent hat, wen er fragt, wann er ausführt, was er protokolliert.

Diese Schicht ist der Harness, im Deutschen sinngemäß der Harnisch oder Kontrollrahmen. Der Begriff stammt aus dem englischen Engineering-Sprachgebrauch und hat sich für die Laufzeit-Umgebung um einen KI-Agenten etabliert. Im Folgenden benutzen wir Harness.

Der Harness entscheidet, was mit dem Agent möglich ist. Wenn Claude Code vorsichtig mit Dateisystem-Zugriffen umgeht, liegt das nicht am Sprachmodell, das Modell würde schreiben, was es plausibel findet. Es liegt am Harness: der Harness erzwingt, dass bestimmte Aktionen nur nach Bestätigung laufen. Das gilt für jeden Agent. Das Modell ist austauschbar. Der Harness bestimmt das Verhalten.

Warum Prinzipien einen Harness brauchen.

Viele KI-Automatisierungs-Versprechen klingen gut: "Wir fragen den Menschen vor jeder Aktion", "Daten verlassen Ihr Netzwerk nicht", "Jeder Schritt ist protokolliert". Das Problem: ohne Harness sind das Versprechen, keine Eigenschaften. Drei Fehlschlüsse, die man häufig liest:

Fehlschluss

Der Prompt-Fehlschluss.

"Wir sagen dem Modell im Systemprompt, dass es nur fragen soll." Das Modell kann das tun, muss aber nicht. Bei Prompt-Injection, bei ungewöhnlicher Eingabe oder schlicht bei Unsicherheit bricht das Versprechen. Ein Systemprompt ist eine Bitte, keine Eigenschaft.

Fehlschluss

Der Trainings-Fehlschluss.

"Wir trainieren das Modell auf unsere Prinzipien." Modelle sind Wahrscheinlichkeitsmaschinen. Ein Feintuning erhöht die Chance auf erwünschtes Verhalten, nicht die Garantie. Garantie gibt es nur über Strukturen, die Fehlverhalten technisch ausschließen.

Fehlschluss

Der Review-Fehlschluss.

"Wir schauen stichprobenhaft rein." Das ist Qualitätskontrolle nach der Tat. Für Automatisierung, die direkt in Zielsysteme schreibt, ist stichprobenhafte Review kein Verlass. Das Ereignis ist längst passiert.

Ein Harness macht aus dem Versprechen eine Eigenschaft: das Modell kann nicht anders handeln, weil die Werkzeuge es nicht zulassen. Was nicht im Capability-Katalog steht, existiert für den Agenten nicht.

Versprechen ist, was ein Agent sagen sollte. Eigenschaft ist, was er technisch überhaupt kann.

Was Alfreds Harness absichert.

Alfreds Harness ist nicht auf Geschwindigkeit in einer Entwicklungsumgebung optimiert, wie es bei Coding-Agenten der Fall ist. Er ist auf Kontrollierbarkeit in Geschäftsprozessen optimiert. Vier Kern-Mechanismen:

Capability-Katalog.

Der Agent sieht nur die Werkzeuge, die für den jeweiligen Kontext definiert sind. Es gibt keine universelle "beliebige Aktion ausführen"-Capability. Jede Capability ist explizit, hat ein definiertes Input-Schema und einen definierten Scope. Was nicht im Katalog steht, ist für den Agenten technisch unerreichbar.

Freigabe-Gate.

Zwischen "Alfred schlägt vor" und "Alfred führt aus" sitzt ein Gate, das nur durch explizite menschliche Bestätigung über das Frontend geöffnet werden kann. Der Agent selbst hat keinen Weg zur persistenten Aktion ohne Freigabe. Das ist kein Workflow-Feature, sondern eine architektonische Grenze.

Mandanten-Isolation.

Jeder Kunde läuft in einem eigenen Mandanten auf Datenbank-Ebene, getrennt per Schema. Der Agent operiert immer im Kontext eines Mandanten und kann Daten anderer Kunden technisch nicht erreichen, weil sein Ausführungskontext die nötigen Rechte nicht hat.

Audit-Logger.

Jeder Schritt wird unveränderlich protokolliert: welcher Prompt, welche Capability, welches Ergebnis, welche Freigabe, von wem. Der Audit-Trail ist fester Bestandteil jeder Ausführung, nicht optionale Zusatzkomponente.

Wie die 7 Alfred-Vertrauensprinzipien auf diese Mechanismen mappen, welches Prinzip durch welchen Gate erzwungen wird, beschreibt Alfreds Vertrauensframework. Dort wird aus "wir versprechen X" ein "X ist strukturell unumgehbar".

Was ein Harness nicht tut.

Ein Harness ist keine Antwort auf alle KI-Sorgen. Drei Abgrenzungen, die für Erwartungs-Management wichtig sind:

Nicht Modell-Alignment. Der Harness entscheidet, was der Agent tun darf, nicht was er für richtig hält. Ethik, Bias, Halluzinations-Tendenz liegen im Modell und im Training, nicht im Harness.
Nicht Trainingsdaten-Kuratierung. Was das Modell weiß und wie es argumentiert, hängt von seinen Trainingsdaten ab. Der Harness kann nur das Verhalten gegenüber Werkzeugen und Daten begrenzen, nicht das "innere Weltbild" des Modells.
Nicht Prompt-Engineering. Ein gut formulierter Systemprompt verbessert die Qualität der Vorschläge. Ein Harness macht aus Vorschlägen erzwungene Abläufe. Beides ist nützlich, aber Harness löst das Problem, das Prompt-Engineering nicht lösen kann.

Weiterlesen.

Wie der Harness die Trust-Prinzipien im Detail durchsetzt und wie das Konzept auf Produkt und Prozess wirkt, beschreiben die folgenden Ressourcen:

Häufige Fragen.

Was ist ein Harness im Kontext von KI-Agenten?

Der Harness ist die Laufzeit-Schicht um einen KI-Agenten: welche Werkzeuge der Agent hat, wen er fragt, wann er ausführt, was er protokolliert. Bekannte Beispiele sind Claude Code, Codex oder Cursor, jedes dieser Systeme ist nicht nur ein Sprachmodell, sondern ein Modell plus Harness, der sein Verhalten formt. Der Harness bestimmt das Verhalten eines Agenten stärker als das zugrundeliegende Modell.

Reicht es nicht, die Prinzipien im Systemprompt zu definieren?

Nein. Ein Systemprompt ist eine Bitte an das Modell, sich so zu verhalten. Das Modell kann der Bitte folgen, muss aber nicht. Bei Prompt-Injection, bei komplexen Eingaben oder schlicht bei Modell-Unsicherheit bricht das Versprechen. Ein Harness erzwingt die Prinzipien strukturell: wenn das Werkzeug nicht existiert oder nur über ein Freigabe-Gate erreichbar ist, kann der Agent die Regel nicht verletzen, auch wenn er es wollte.

Wodurch unterscheidet sich Alfreds Harness von Claude Code oder Cursor?

Der Zweck. Entwickler-Agenten sind für schnelle Coding-Iterationen optimiert, sie lesen und schreiben Dateien, führen Tests aus, editieren autonom in kleinen Schritten. Alfreds Harness ist auf Supervised Automation in Geschäftsprozessen optimiert: keine persistente Aktion ohne explizite menschliche Freigabe, Mandanten-Isolation auf Datenbank-Ebene, vollständiger Audit-Trail. Unterschiedliche Ziele, unterschiedliche Harnesses.

Kann ein Harness Prinzipien nachträglich hinzufügen?

Bedingt. Ein Harness kann um ein System gelegt werden, das vorher keinen hatte, zum Beispiel indem man bestehende APIs mit Gates umgibt. Was ein Harness nicht kann: ein Modell dazu bringen, Aussagen zurückzunehmen, die es bereits gemacht hat, oder Daten zu vergessen, die es bereits verarbeitet hat. Der Harness begrenzt Wirkung nach außen, nicht Wahrnehmung nach innen.

Was ist der Unterschied zwischen Harness und Guardrails?

Guardrails sind oft Filter, die Ein- oder Ausgaben prüfen, etwa Prompt-Injection-Detection oder Content-Filter. Ein Harness ist umfassender: er definiert den gesamten Handlungsrahmen des Agenten, inklusive Werkzeuge, Scope, Freigabe-Logik und Audit. Guardrails sind Teil eines Harness, aber nicht sein Ganzes.

Wie sorgt der AI Harness für menschliche Aufsicht (Human-in-the-Loop)?

Der AI Harness erzwingt menschliche Aufsicht (Human-in-the-Loop, HITL) durch das Freigabe-Gate: jedes Werkzeug, das eine schreibende Aktion auslöst, ist nur über ein Bestätigungs-Fenster erreichbar. Der KI-Agent kann das nicht umgehen, weil das Werkzeug ohne den Freigabe-Pfad gar nicht existiert. So wird das Prinzip "kein Schreibzugriff ohne Mensch" zur technischen Eigenschaft, statt einer Modell-Versprechen.

Was bedeutet Kontrollierbarkeit bei KI-Agenten?

Kontrollierbarkeit bei KI-Agenten heißt: der Betreiber kann zu jedem Zeitpunkt nachvollziehen, was der Agent darf, was er tut und was er getan hat. Beim Alfred-Harness wird Kontrollierbarkeit durch drei Bausteine erzwungen: der Capability-Katalog macht erlaubte Aktionen explizit und versioniert, das Freigabe-Gate verhindert Aktionen ohne menschliche Bestätigung, der Audit-Logger protokolliert jeden Schritt unveränderlich. Das Modell muss nicht kontrolliert werden, weil der Harness die Kontrolle technisch sicherstellt.

Wie sicher ist KI mit menschlicher Freigabe wirklich?

KI mit menschlicher Freigabe (HITL) reduziert das Risiko unkontrollierter Aktionen strukturell auf Null, solange das Freigabe-Gate selbst nicht umgangen werden kann. Beim Alfred-Harness ist das technisch garantiert: schreibende Werkzeuge sind nur über das Gate erreichbar, der Agent hat keine Möglichkeit, einen anderen Pfad zu wählen. Das Restrisiko verlagert sich vom Modell-Verhalten auf die Aufmerksamkeit des Freigebenden — was eine vertraute, gut trainierte Risikoklasse ist.

Alfreds Harness in Aktion sehen.

Im begleiteten Probelauf zeigen wir, wie die Mechanismen im echten Prozess greifen: wo das Freigabe-Gate sitzt, wie der Audit-Trail aussieht, wie Mandanten-Isolation konkret wirkt.

Probelauf starten Alfred entdecken

AI Harness.

Was ist ein Harness?

Warum Prinzipien einen Harness brauchen.

Der Prompt-Fehlschluss.

Der Trainings-Fehlschluss.

Der Review-Fehlschluss.

Was Alfreds Harness absichert.

Capability-Katalog.

Freigabe-Gate.

Mandanten-Isolation.

Audit-Logger.

Was ein Harness nicht tut.

Weiterlesen.

Häufige Fragen.

Was ist ein Harness im Kontext von KI-Agenten?

Reicht es nicht, die Prinzipien im Systemprompt zu definieren?

Wodurch unterscheidet sich Alfreds Harness von Claude Code oder Cursor?

Kann ein Harness Prinzipien nachträglich hinzufügen?

Was ist der Unterschied zwischen Harness und Guardrails?

Wie sorgt der AI Harness für menschliche Aufsicht (Human-in-the-Loop)?

Was bedeutet Kontrollierbarkeit bei KI-Agenten?

Wie sicher ist KI mit menschlicher Freigabe wirklich?

Alfreds Harness in Aktion sehen.