Zum Inhalt springen
EN DE

Probabilistisches Denken

Dein QA-Team meldet einen Bug: “Der AI-Chatbot gibt auf dieselbe Frage unterschiedliche Antworten.” Du schreibst ein Ticket. Dein Engineering-Team schaut Dich an und sagt: “Das ist kein Bug. Das ist by design.”

Willkommen im Paradigmenwechsel. Traditionelle Software ist deterministisch — gleicher Input, gleicher Output. AI-Software ist probabilistisch — gleicher Input, potenziell unterschiedlicher Output. Als PM musst Du diesen Unterschied nicht nur verstehen, sondern Dein gesamtes Produktdenken darauf ausrichten.

Traditionelle SoftwareAI-Software
VerhaltenGleicher Input = gleicher OutputGleicher Input = potenziell anderer Output
BugsReproduzierbar, binaerProbabilistisch, verteilt
TestingPass/FailVerteilungen und Schwellenwerte
KostenDeterministischDeterministisch — aber Outputs stochastisch

Das ist der fundamentale Mismatch: Du zahlst deterministische Kosten für stochastische Ergebnisse. Jeder API-Call kostet Geld. Ob das Ergebnis brauchbar ist, weisst Du vorher nicht.

  • Epistemisch (Wissensluecke): Kann mit mehr Daten reduziert werden. Beispiel: Dein Modell kennt Dein Produktsortiment nicht → Lösung: RAG mit Produktdatenbank.
  • Aleatorisch (inhaerent): Kann nicht reduziert werden, egal wie viele Daten Du hast. Beispiel: Natuerliche Sprachvarianz — Menschen formulieren dieselbe Frage auf hundert Arten.

PM-Implikation: Verschwende kein Budget darauf, irreduzible Unsicherheit zu eliminieren. Investiere stattdessen in Systeme, die damit umgehen können.

Wenn Du mehrere AI-Agenten in Reihe schaltest, multipliziert sich die Unsicherheit. Drei Agenten mit je 90% Accuracy ergeben nicht 90% Gesamtgenauigkeit — sondern ~73% (0.9 x 0.9 x 0.9). Das ist der Grund, warum Multi-Agent-Architekturen sorgfaeltige Validierung zwischen den Schritten brauchen.

Uncertainty Tolerance Assessment — Bevor Du ein AI-Feature baust, bewerte diese vier Dimensionen:

DimensionNiedrige Toleranz (High Stakes)Hohe Toleranz (Low Stakes)
FehlerkostenFinanzieller Schaden, SicherheitsrisikoKleine Unannehmlichkeit
ReversibilitaetIrreversible Aktion (Ueberweisung, Diagnose)Reversibler Vorschlag (Textvorschlag)
User-KompetenzEinsteiger vertrauen blindExperten validieren selbst
VolumenWenige Faelle, jeder zaehltHohes Volumen, Statistik reicht

Entscheidungsregeln:

  • Niedrig bei einer Dimension → Human Review, hoher Confidence-Schwellenwert
  • Hoch bei allen Dimensionen → Automatisierung mit Monitoring
  • Gemischt → Hybridansatz mit gestaffelten Schwellenwerten

Confidence-Schwellenwerte nach Domain:

DomainSchwellenwertEskalationsrate (Ziel)
Healthcare95%+15-20%
Financial Services90-95%10-15%
Content Moderation85-90%10-15%
Customer Service80-85%10-15%

Eine Eskalationsrate von ~60% ist ein klares Signal für Fehlkalibrierung.

Du baust ein AI-gestuetztes Triage-System für eine Versicherung. Eingehende Schadensmeldungen sollen automatisch kategorisiert und priorisiert werden.

Die Situation:

  • 8.000 Schadensmeldungen pro Monat
  • Drei Kategorien: Einfach (Glasbruch), Mittel (Wasserschaden), Komplex (Personenschaden)
  • Aktuelle manuelle Bearbeitung: 12 Minuten pro Fall, 4 Sachbearbeiter
  • AI-Modell erreicht im Eval: 92% Accuracy bei Einfach, 85% bei Mittel, 71% bei Komplex
  • Fehlklassifizierung “Komplex als Einfach”: durchschnittlich 2.400 EUR Folgekosten

Deine Optionen:

  1. Vollautomatisierung: Alle Kategorien automatisch routen
  2. Konservativ: Nur “Einfach” automatisieren (92%), Rest manuell
  3. Hybrid: Einfach + Mittel automatisieren, Komplex immer manuell, plus Confidence-Schwellenwert bei 88% — alles darunter eskaliert
Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 3 — Hybrid mit Confidence-Schwellenwert.

Warum:

  • 71% bei “Komplex” ist zu niedrig für irreversible Entscheidungen mit 2.400 EUR Fehlerkosten
  • “Einfach” bei 92% ist vertretbar — Glasbruch falsch kategorisiert verursacht Verzoegerung, keinen Schaden
  • Der 88%-Schwellenwert für “Mittel” funkt als Sicherheitsnetz: unsichere Faelle gehen an Menschen
  • Du sparst ~60% der manuellen Arbeit, statt alles oder nichts zu automatisieren

Evals als PM-Skill: Baue 50-100 Golden Examples pro Kategorie — Schadensmeldungen mit verifizierten idealen Klassifizierungen. Miss nicht nur Accuracy, sondern auch die Verteilung der Confidence-Scores. Tools wie Promptfoo oder DeepEval machen das operationalisierbar.

Was viele falsch machen: Die Gesamt-Accuracy (87%) als eine Zahl reporten und damit die Freigabe holen — ohne zu zeigen, dass sie pro Kategorie stark variiert.

  • Probabilistisch denken heisst nicht “ungenau akzeptieren” — es heisst, Unsicherheit bewusst managen statt sie zu ignorieren oder zu leugnen.
  • Nicht jede Unsicherheit ist gleich. Epistemisch kannst Du reduzieren (mehr Daten, besserer Context). Aleatorisch musst Du designen (Confidence-Anzeigen, Escalation Paths).
  • Compound Uncertainty ist der stille Killer bei Multi-Agent-Systemen. Drei mal 90% ist nicht 90%.
  • Evals sind Dein neues Testing. Nicht pass/fail, sondern Verteilungen, Schwellenwerte und Golden Examples.

Quellen: Gian Segato “Building AI Products in the Probabilistic Era” (2025), Google Maps UX Patterns, GitHub Copilot Product Design, PathAI Clinical Documentation

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn