KPIs für AI-Produkte
Context
Abschnitt betitelt „Context“Dein AI-Feature ist seit drei Monaten live. Die DAU/MAU-Zahlen sehen gut aus. Dein CEO ist zufrieden. Dann zeigt ein Tweet eines verargerten Kunden: Der AI-Output hat falsche Informationen enthalten und wurde ungeprueft weitergeleitet.
Du schaust in Dein Dashboard und merkst: Du misst Nutzung, aber nicht Qualität. Du weisst wie viele User das Feature nutzen, aber nicht ob die Outputs korrekt sind. Hohe Nutzung eines halluzinierenden Produkts ist schlimmer als niedrige Nutzung eines akkuraten.
Concept
Abschnitt betitelt „Concept“Das Drei-Schichten AI Metrics Framework
Abschnitt betitelt „Das Drei-Schichten AI Metrics Framework“Traditionelle Produktmetriken (DAU/MAU, Conversion, Retention, NPS) reichen für AI-Produkte nicht aus. Du brauchst drei zusaetzliche Schichten.
Layer 1: Model Quality Metrics
Abschnitt betitelt „Layer 1: Model Quality Metrics“| Metrik | Was sie misst | Zielbereich |
|---|---|---|
| Accuracy / Correctness | Anteil faktisch korrekter Outputs | Domain-abhaengig |
| Hallucination Rate | Anteil erfundener Informationen | Unter 5% allgemein; unter 1% + Human Review für regulierte Domaenen (Recht, Medizin, Finanzen) |
| Groundedness | Sind Antworten durch Quellmaterial belegt? | Über 90% bei RAG-Anwendungen |
| Task Completion Rate | Anteil erfolgreich erledigter Aufgaben | Use-Case-abhaengig |
Layer 2: System Performance Metrics
Abschnitt betitelt „Layer 2: System Performance Metrics“| Metrik | Was sie misst | Zielbereich |
|---|---|---|
| Latency (P50) | Mediane Antwortzeit | Unter 2s für Chat, unter 500ms für Inline |
| Latency (P95) | 95. Perzentil Antwortzeit | Unter 5s für Chat |
| Cost per Query | Durchschnittliche Inferenz-Kosten pro Anfrage | Trend beobachten |
| Error Rate | Anteil komplett fehlgeschlagener Requests | Unter 0,1% |
Layer 3: Business Impact Metrics
Abschnitt betitelt „Layer 3: Business Impact Metrics“| Metrik | Was sie misst | Warum wichtig |
|---|---|---|
| AI Feature Adoption Rate | Anteil der User, die AI-Features nutzen | Misst Product-Market Fit |
| Escalation Rate | Anteil der AI-Interaktionen mit Human Handoff | Misst AI-Zuverlaessigkeit in der Praxis |
| Regeneration Rate | Wie oft User “Nochmal generieren” klicken | Fruehwarnsystem für Qualitaetsprobleme |
| Cost per Resolution | Gesamtkosten pro geloestem User-Need | Wahre Unit Economics |
| Revenue Attribution | Umsatz direkt durch AI-Features | Business Case Validation |
Leading vs. Lagging Indicators
Abschnitt betitelt „Leading vs. Lagging Indicators“Leading (sagen Zukunft voraus): Hallucination Rate Trend, User Trust Score, Eval Benchmark Improvements, Cost-per-Query Trend, Regeneration Rate
Lagging (bestaetigen Vergangenheit): Revenue aus AI-Features, Churn Rate der AI-User, NPS, Total AI Compute Spend
Key Insight: Die Regeneration Rate — wie oft User “Nochmal” klicken — ist eine der wertvollsten, aber am wenigsten genutzten AI-Metriken. Hohe Regeneration-Raten signalisieren Qualitaetsprobleme, bevor User churnen.
Framework
Abschnitt betitelt „Framework“Welche Metriken wann priorisieren:
| Phase | Primaere Metriken | Sekundaere Metriken |
|---|---|---|
| Pre-Launch | Eval Accuracy, Hallucination Rate, Latency, Cost per Query | - |
| Beta | + Adoption Rate, Task Completion, Regeneration Rate | Escalation Rate |
| General Availability | + Revenue Attribution, Retention, NPS | ROI |
| Scale | + Cost Optimization Trends, Model Efficiency | Competitive Benchmarks |
In jeder Phase: Cost per Query tracken. Unit Economics lassen sich in keiner Phase ignorieren.
AI Dashboard: Vier Sektionen
Abschnitt betitelt „AI Dashboard: Vier Sektionen“- Real-time Operations: Latency, Error Rates, Throughput, Cost Burn Rate
- Quality Monitoring: Hallucination Rate (gesamplet), Groundedness, Task Completion (taeglich/woechentlich)
- User Experience: Adoption, Engagement Depth, Regeneration Rate, Thumbs Up/Down
- Business Impact: Revenue Attribution, Cost Trends, ROI (woechentlich/monatlich)
Scenario
Abschnitt betitelt „Scenario“Du bist AI PM bei einem Legal-Tech-Startup. Euer AI-Feature fasst Vertraege zusammen und markiert Risikoklauseln. Seit dem Launch vor 8 Wochen:
Die Zahlen:
- 1.200 aktive User (von 3.000 mit Zugang) = 40% Adoption
- Durchschnittlich 15 Zusammenfassungen pro User pro Woche
- Latency P50: 3,2 Sekunden, P95: 8,1 Sekunden
- Cost per Query: $0.08
- Regeneration Rate: 28% (User klickt “Nochmal generieren”)
- Thumbs Down Rate: 12%
- Escalation Rate (User kontaktiert Support wegen AI-Fehler): 5%
- Keine Hallucination-Rate gemessen
Du sollst dem Board eine Einschaetzung geben: Ist das Feature auf dem richtigen Weg?
Wie wuerdest Du entscheiden?
Die beste Einschaetzung: Das Feature hat Product-Market Fit (40% Adoption ist gut), aber ein ernstes Qualitaetsproblem, das vor dem Scaling geloest werden muss.
Die Warnsignale:
- 28% Regeneration Rate ist zu hoch — fast ein Drittel der Outputs ist beim ersten Versuch nicht brauchbar
- Keine Hallucination-Rate gemessen bei einem Legal-Produkt ist ein kritisches Risiko — falsche Vertrags-Zusammenfassungen koennten Kunden erheblich schaden
- P95 Latency von 8,1s ist zu langsam — Anwaelte, die Vertraege prüfen, erwarten schnelle Ergebnisse
Empfehlung ans Board:
- Sofort Hallucination-Messung aufsetzen (Eval Dataset mit Anwaelten bauen)
- Regeneration Rate als primaeren Quality-KPI definieren — Ziel: unter 15%
- Latency-Optimierung (Modell-Routing: einfache Zusammenfassungen an schnelleres Modell)
- Scaling erst bei Regeneration Rate unter 15% und Hallucination Rate unter 3%
Was viele falsch machen: 40% Adoption feiern und sofort skalieren, ohne die Qualitaetsmetriken zu prüfen. Hohe Nutzung bei niedriger Qualität ist ein Churn-Problem, das noch nicht sichtbar ist.
Reflect
Abschnitt betitelt „Reflect“Die wichtigste Erkenntnis: Bei AI-Produkten sind Qualitaetsmetriken wichtiger als Nutzungsmetriken. Hohe Adoption ohne Qualitaetsmessung ist ein blindes Risiko.
- Miss Model Quality VOR dem Launch, nicht danach — Du brauchst Baselines
- Die Regeneration Rate ist Dein bester Fruehindikator für Qualitaetsprobleme
- Verschiedene Stakeholder brauchen verschiedene Dashboards: Engineering (Latency/Errors), Product (Quality/Adoption), Leadership (Cost/ROI)
Quellen: Google Cloud “KPIs That Actually Matter for Production AI Agents” (2026), Google Cloud “KPIs for Gen AI” (2026), Product School “Evaluation Metrics for AI Products” (2026), Splunk “LLM Observability Explained” (2026)