Zum Inhalt springen
EN DE

KPIs für AI-Produkte

Dein AI-Feature ist seit drei Monaten live. Die DAU/MAU-Zahlen sehen gut aus. Dein CEO ist zufrieden. Dann zeigt ein Tweet eines verargerten Kunden: Der AI-Output hat falsche Informationen enthalten und wurde ungeprueft weitergeleitet.

Du schaust in Dein Dashboard und merkst: Du misst Nutzung, aber nicht Qualität. Du weisst wie viele User das Feature nutzen, aber nicht ob die Outputs korrekt sind. Hohe Nutzung eines halluzinierenden Produkts ist schlimmer als niedrige Nutzung eines akkuraten.

Traditionelle Produktmetriken (DAU/MAU, Conversion, Retention, NPS) reichen für AI-Produkte nicht aus. Du brauchst drei zusaetzliche Schichten.

MetrikWas sie misstZielbereich
Accuracy / CorrectnessAnteil faktisch korrekter OutputsDomain-abhaengig
Hallucination RateAnteil erfundener InformationenUnter 5% allgemein; unter 1% + Human Review für regulierte Domaenen (Recht, Medizin, Finanzen)
GroundednessSind Antworten durch Quellmaterial belegt?Über 90% bei RAG-Anwendungen
Task Completion RateAnteil erfolgreich erledigter AufgabenUse-Case-abhaengig
MetrikWas sie misstZielbereich
Latency (P50)Mediane AntwortzeitUnter 2s für Chat, unter 500ms für Inline
Latency (P95)95. Perzentil AntwortzeitUnter 5s für Chat
Cost per QueryDurchschnittliche Inferenz-Kosten pro AnfrageTrend beobachten
Error RateAnteil komplett fehlgeschlagener RequestsUnter 0,1%
MetrikWas sie misstWarum wichtig
AI Feature Adoption RateAnteil der User, die AI-Features nutzenMisst Product-Market Fit
Escalation RateAnteil der AI-Interaktionen mit Human HandoffMisst AI-Zuverlaessigkeit in der Praxis
Regeneration RateWie oft User “Nochmal generieren” klickenFruehwarnsystem für Qualitaetsprobleme
Cost per ResolutionGesamtkosten pro geloestem User-NeedWahre Unit Economics
Revenue AttributionUmsatz direkt durch AI-FeaturesBusiness Case Validation

Leading (sagen Zukunft voraus): Hallucination Rate Trend, User Trust Score, Eval Benchmark Improvements, Cost-per-Query Trend, Regeneration Rate

Lagging (bestaetigen Vergangenheit): Revenue aus AI-Features, Churn Rate der AI-User, NPS, Total AI Compute Spend

Key Insight: Die Regeneration Rate — wie oft User “Nochmal” klicken — ist eine der wertvollsten, aber am wenigsten genutzten AI-Metriken. Hohe Regeneration-Raten signalisieren Qualitaetsprobleme, bevor User churnen.

Welche Metriken wann priorisieren:

PhasePrimaere MetrikenSekundaere Metriken
Pre-LaunchEval Accuracy, Hallucination Rate, Latency, Cost per Query-
Beta+ Adoption Rate, Task Completion, Regeneration RateEscalation Rate
General Availability+ Revenue Attribution, Retention, NPSROI
Scale+ Cost Optimization Trends, Model EfficiencyCompetitive Benchmarks

In jeder Phase: Cost per Query tracken. Unit Economics lassen sich in keiner Phase ignorieren.

  1. Real-time Operations: Latency, Error Rates, Throughput, Cost Burn Rate
  2. Quality Monitoring: Hallucination Rate (gesamplet), Groundedness, Task Completion (taeglich/woechentlich)
  3. User Experience: Adoption, Engagement Depth, Regeneration Rate, Thumbs Up/Down
  4. Business Impact: Revenue Attribution, Cost Trends, ROI (woechentlich/monatlich)

Du bist AI PM bei einem Legal-Tech-Startup. Euer AI-Feature fasst Vertraege zusammen und markiert Risikoklauseln. Seit dem Launch vor 8 Wochen:

Die Zahlen:

  • 1.200 aktive User (von 3.000 mit Zugang) = 40% Adoption
  • Durchschnittlich 15 Zusammenfassungen pro User pro Woche
  • Latency P50: 3,2 Sekunden, P95: 8,1 Sekunden
  • Cost per Query: $0.08
  • Regeneration Rate: 28% (User klickt “Nochmal generieren”)
  • Thumbs Down Rate: 12%
  • Escalation Rate (User kontaktiert Support wegen AI-Fehler): 5%
  • Keine Hallucination-Rate gemessen

Du sollst dem Board eine Einschaetzung geben: Ist das Feature auf dem richtigen Weg?

Wie wuerdest Du entscheiden?

Die beste Einschaetzung: Das Feature hat Product-Market Fit (40% Adoption ist gut), aber ein ernstes Qualitaetsproblem, das vor dem Scaling geloest werden muss.

Die Warnsignale:

  • 28% Regeneration Rate ist zu hoch — fast ein Drittel der Outputs ist beim ersten Versuch nicht brauchbar
  • Keine Hallucination-Rate gemessen bei einem Legal-Produkt ist ein kritisches Risiko — falsche Vertrags-Zusammenfassungen koennten Kunden erheblich schaden
  • P95 Latency von 8,1s ist zu langsam — Anwaelte, die Vertraege prüfen, erwarten schnelle Ergebnisse

Empfehlung ans Board:

  1. Sofort Hallucination-Messung aufsetzen (Eval Dataset mit Anwaelten bauen)
  2. Regeneration Rate als primaeren Quality-KPI definieren — Ziel: unter 15%
  3. Latency-Optimierung (Modell-Routing: einfache Zusammenfassungen an schnelleres Modell)
  4. Scaling erst bei Regeneration Rate unter 15% und Hallucination Rate unter 3%

Was viele falsch machen: 40% Adoption feiern und sofort skalieren, ohne die Qualitaetsmetriken zu prüfen. Hohe Nutzung bei niedriger Qualität ist ein Churn-Problem, das noch nicht sichtbar ist.

Die wichtigste Erkenntnis: Bei AI-Produkten sind Qualitaetsmetriken wichtiger als Nutzungsmetriken. Hohe Adoption ohne Qualitaetsmessung ist ein blindes Risiko.

  • Miss Model Quality VOR dem Launch, nicht danach — Du brauchst Baselines
  • Die Regeneration Rate ist Dein bester Fruehindikator für Qualitaetsprobleme
  • Verschiedene Stakeholder brauchen verschiedene Dashboards: Engineering (Latency/Errors), Product (Quality/Adoption), Leadership (Cost/ROI)

Quellen: Google Cloud “KPIs That Actually Matter for Production AI Agents” (2026), Google Cloud “KPIs for Gen AI” (2026), Product School “Evaluation Metrics for AI Products” (2026), Splunk “LLM Observability Explained” (2026)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn