Vertrauen kalibrieren

L4 Lektion 4 von 5 — AI als Coworker

Das zentrale Problem

Du delegierst eine Aufgabe an die AI. Sie liefert ein Ergebnis. Jetzt die Frage: Stimmt das?

Blindes Vertrauen ist gefährlich. Alles manuell prüfen macht Delegation sinnlos. Die Lösung liegt dazwischen — und genau dieses Dazwischen zu finden, ist die Kernkompetenz von L4.

Warum das wichtig ist

Die Zahlen sind deutlich:

47% der Enterprise-AI-Nutzer haben mindestens eine wichtige Geschäftsentscheidung auf Basis halluzinierter Inhalte getroffen (Deloitte Global AI Survey, 2025)
Die Harvard/BCG-Studie zeigte: Bei Aufgaben ausserhalb der AI-Stärken sank die Qualität — weil Berater dem Output vertrauten, ohne zu prüfen
Air Canada wurde haftbar gemacht, weil ihr Chatbot einem Kunden falsche Informationen über Erstattungen gab

Das Problem ist nicht, dass AI halluziniert. Das Problem ist, dass Menschen dem Output unkritisch folgen. Der EU AI Act nennt das explizit: Automation Bias — die Tendenz, maschinellen Ergebnissen mehr zu glauben als dem eigenen Urteil.

Das Intern-to-Expert-Modell

Stell dir vor, du delegierst nicht an “die AI”, sondern an eine neue Mitarbeiterin. Wie viel Kontrolle gibst du? Das hängt ab von ihrer Erfahrung — und von der Aufgabe.

Trust Level	Analogie	Was die AI darf	Wie du prüfst
Intern	Erster Tag	Beobachten, lesen, zusammenfassen	Alles prüfen
Junior	3 Monate dabei	Vorschläge machen, Entwürfe erstellen	Jedes Ergebnis reviewen
Senior	Bewährt	Eigenständig ausführen mit Monitoring	Stichproben, Ergebnischeck
Expert	Volles Vertrauen	Autonom arbeiten	Nur bei Auffälligkeiten

Wie du das Modell anwendest

Schritt 1: Starte jede neue Aufgabe auf “Intern”-Level. Auch wenn das Tool grundsätzlich fähig ist.

Schritt 2: Beobachte die Qualität über 5–10 Durchläufe. Notiere: Wo stimmt es? Wo nicht?

Schritt 3: Wenn die Qualität konsistent ist, stufe hoch. Wenn nicht, bleib auf dem aktuellen Level oder passe den Prompt an.

Schritt 4: Bei jeder neuen Aufgabenart: Zurück auf “Intern”. Vertrauen ist aufgabenspezifisch, nicht pauschal.

Zwei Achsen der Entscheidung

Ob du ein AI-Ergebnis prüfen musst, hängt von zwei Fragen ab:

Achse 1: Ist das Ergebnis verifizierbar?

Verifizierbarkeit	Beispiel	Prüfaufwand
Leicht prüfbar	Formatierung, Zusammenfassung, Datenextraktion	Sekunden
Prüfbar mit Aufwand	Faktenaussagen, Berechnungen, Quellenangaben	Minuten
Schwer prüfbar	Strategische Empfehlungen, Kausalaussagen, Prognosen	Eigene Expertise nötig

Achse 2: Ist ein Fehler reversibel?

Reversibilität	Beispiel	Risiko
Leicht rückgängig	Interner Entwurf, Notizen, Brainstorming	Niedrig
Aufwändig rückgängig	Versendete E-Mail, publizierter Bericht	Mittel
Irreversibel	Vertragliche Zusage, Finanztransaktion, Kündigung	Hoch

Die Entscheidungsmatrix

	Leicht verifizierbar	Schwer verifizierbar
Reversibel	Delegieren, Stichprobe reicht	Delegieren, aber reviewen
Irreversibel	Delegieren, vollständig prüfen	Nicht delegieren — selbst machen

Qualitätssignale: Worauf achten

Grüne Flaggen (eher vertrauenswürdig)

Output ist konsistent über mehrere Anfragen
Aussagen sind mit Quellen belegt
AI kennzeichnet Unsicherheit (“Ich bin nicht sicher, aber…”)
Format und Struktur passen zum Auftrag
Faktencheck der ersten 3 Aussagen bestätigt Korrektheit

Rote Flaggen (genauer prüfen)

Übermässig selbstsichere Sprache bei komplexen Themen
Konkrete Zahlen ohne Quellenangabe
Output passt “zu perfekt” — klingt gut, aber substanzlos
Widersprüche innerhalb desselben Outputs
Behauptungen, die du nicht mit einer schnellen Suche bestätigen kannst

Drei Warnsignale aus der Praxis

1. Die Klarna-Warnung

Klarnas AI-Assistent übernahm die Arbeit von 700 Vollzeit-Mitarbeitern und automatisierte zwei Drittel aller Kundenservice-Chats. Die Effizienzmetriken sahen grossartig aus: 82% schneller, 75% der Anfragen automatisiert. Aber die Qualität sank — generische Antworten, steigende Beschwerden. Der CEO revidierte öffentlich und stellte wieder menschliche Mitarbeiter ein.

Lektion: Effizienzmetriken können Qualitätsverlust maskieren. Miss beides.

2. Die Anwalts-Halluzination

Mehrere Anwälte reichten Schriftsätze mit AI-generierten Zitaten ein — Fälle und Zitate, die nicht existierten. ChatGPT hatte sie erfunden, und die Anwälte hatten nicht geprüft.

Lektion: AI kann faktenähnliche Inhalte generieren, die komplett frei erfunden sind. Bei Faktenaussagen: immer prüfen.

3. Die Air-Canada-Haftung

Ein Chatbot gab einem Kunden falsche Erstattungsinformationen. Air Canada argumentierte, der Chatbot sei “eine separate rechtliche Einheit”. Das Gericht: Nein — das Unternehmen haftet für alle Informationen, die seine AI-Tools liefern.

Lektion: Du bist verantwortlich für das, was AI in deinem Namen kommuniziert.

Trust Calibration als Gewohnheit

Jede neue Aufgabenart auf 'Intern'-Level starten und systematisch hochstufen
Vor Delegation fragen: Ist das Ergebnis verifizierbar? Ist ein Fehler reversibel?
Stichproben bei Faktenaussagen — die ersten 3 Punkte checken
Effizienz UND Qualität messen, nicht nur eins von beiden
Bei Unsicherheit: AI als Entwurf nutzen, nicht als Endprodukt

AI-Ergebnisse ungeprüft übernehmen, weil sie professionell klingen
Blindes Vertrauen aufbauen, weil es bei einer Aufgabenart funktioniert hat
Alle AI-Ergebnisse gleich behandeln — Trust Level hängt von der Aufgabe ab
Zahlen, Zitate oder Faktenbehauptungen ohne Gegenprüfung verwenden
Verantwortung an die AI abgeben — dein Name steht unter dem Ergebnis

Probier es aus

Übung 1: Trust-Level-Tagebuch

Führe eine Woche lang ein Trust-Log: Bei jeder AI-Nutzung notierst du Aufgabe, Trust Level (Intern bis Expert), ob du geprüft hast, und ob die Prüfung etwas Problematisches ergeben hat. Am Ende der Woche: Muster erkennen.

Übung 2: Die Verifizierbarkeits-Matrix

Nimm 5 Aufgaben, die du regelmässig an AI delegierst. Ordne jede auf den zwei Achsen ein: Wie leicht verifizierbar? Wie reversibel bei Fehler? Passt dein aktuelles Prüfverhalten zur Matrix?

Übung 3: Red-Flag-Erkennung

Gib der AI eine Aufgabe, bei der du die richtige Antwort kennst. Prüfe: Wo sind Grüne Flaggen? Wo Rote? Wie sicher klingt die AI — und stimmt das Ergebnis tatsächlich?

Weiter gedacht

Trust Calibration ist keine einmalige Entscheidung — es ist eine laufende Praxis. Wie bei einer menschlichen Kollegin baust du Vertrauen über Zeit auf, aufgabenspezifisch und evidenzbasiert. Die besten AI-Nutzer sind nicht die, die am meisten vertrauen oder am wenigsten — sondern die, die am präzisesten kalibriert sind.

In der nächsten Lektion geht es um den rechtlichen Rahmen: Compliance-Basics — was der EU AI Act für dich als Knowledge Worker bedeutet und warum “AI hat mir gesagt” keine Ausrede ist.

Quellen & Weiterlesen

Deloitte Global AI Survey (2025) — 47% der Enterprise-AI-Nutzer trafen Geschäftsentscheidungen auf Basis halluzinierter Inhalte
Dell’Acqua et al. (2023): “Navigating the Jagged Technological Frontier” — Harvard/BCG-Studie zur Qualität AI-gestützter Beratung
Klarna Pressemitteilung (Feb 2024) — AI-Assistent übernimmt zwei Drittel des Kundenservice
Klarna CEO kehrt um (Mai 2025) — Wieder Einstellung menschlicher Mitarbeiter nach Qualitätsverlust