Zum Inhalt springen
EN DE

Metriken

Dein Data-Science-Team praesentiert Ergebnisse: “Das neue Modell hat einen F1-Score von 0,88, ROUGE-L liegt bei 0,45, und der AUC ist 0,94.” Der VP Product schaut Dich an und fragt: “Ist das gut?” Deine Antwort entscheidet, ob das Feature shipped wird.

Als PM musst Du nicht jede Formel verstehen. Aber Du musst wissen, welche Metrik für welchen Produkttyp relevant ist, was die Zahlen für User und Business bedeuten, und wann eine Zahl truegerisch gut aussieht. Die Metrik-Auswahl ist eine Produktentscheidung — nicht eine technische.

Precision vs Recall Tradeoff

Die meisten AI-Produkte enthalten Klassifikationskomponenten — Spam-Erkennung, Intent Routing, Content Moderation. Drei Metriken musst Du verstehen:

Precision: Von allen Items, die das Modell als positiv markiert hat — wie viele waren tatsaechlich positiv? Hohe Precision bedeutet wenige Fehlalarme. Priorisiere Precision, wenn False Positives teuer sind (z.B. legitime Transaktionen als Betrug markieren).

Recall: Von allen tatsaechlich positiven Items — wie viele hat das Modell gefunden? Hoher Recall bedeutet wenige uebersehene Faelle. Priorisiere Recall, wenn False Negatives gefaehrlich sind (z.B. eine Krebsdiagnose verpassen).

F1 Score: Harmonisches Mittel aus Precision und Recall. Nutze F1 wenn weder False Positives noch False Negatives klar dominieren.

Typische Production F1-Zielwerte:

AnwendungF1-Zielwert
Betrugserkennung0.80-0.85
Dokumentenklassifikation0.75+
Content Moderation0.85+
Medizinische Diagnoseunterstuetzung0.90+

Die Accuracy-Falle: Accuracy ist bei unbalancierten Datensaetzen truegerisch. Ein Spam-Filter mit 99% Accuracy klingt grossartig — bis Du realisierst, dass 99% der E-Mails kein Spam sind. Das Modell könnte einfach alles als “kein Spam” labeln und 99% erreichen.

Für Produkte, die Text generieren (Zusammenfassungen, Uebersetzungen, Content):

MetrikStaerkeLimitation
BLEUUebersetzungsqualitaet mit ReferenzNur Wort-Overlap, keine Semantik
ROUGEZusammenfassungsqualitaet mit ReferenzNur Wort-Overlap, keine Semantik
BERTScoreSemantische Aehnlichkeit (erkennt Paraphrasen)Braucht Embedding-Modell
LLM-as-JudgeOffene Qualität, Ton, HilfsbereitschaftKosten, Latenz, Judge Bias

Aktueller Konsens: LLM-as-Judge hat sich als bevorzugte Metrik für finale Qualitaetsbewertung bei generativer AI etabliert. BLEU und ROUGE bleiben nuetzlich für schnelle Regressions-Checks in CI/CD-Pipelines.

Die wertvollsten Evaluationen sind aufgabenspezifisch:

RAG-spezifisch (RAGAS Framework): Context Relevance (sind abgerufene Dokumente relevant?), Faithfulness (ist die Antwort in den Quellen verankert oder halluziniert?), Answer Relevance (beantwortet die Antwort die Frage?).

Agent-spezifisch: Task Completion Rate, Tool Call Accuracy, Step Efficiency, Recovery Rate.

Produkt-Level (was Stakeholder interessiert): User Satisfaction (CSAT, Thumbs up/down), Task Completion Time (mit vs. ohne AI), Adoption Rate, Escalation Rate, Cost per Successful Interaction.

Technische MetrikStakeholder-Uebersetzung
Precision = 0.92”Von 100 Flags sind 92 korrekt”
Recall = 0.85”Die AI findet 85 von 100 echten Faellen”
F1 = 0.88”Balance zwischen Finden (85%) und Richtigliegen (92%)“
AUC = 0.94”Das Modell rankt einen positiven Fall über einen negativen in 94% der Faelle korrekt”

Metrik-Auswahl nach Produkttyp:

ProdukttypPrimaere MetrikenSekundaere Metriken
Content ModerationPrecision, Recall (pro Kategorie)Latenz, False Positive Rate nach Content-Typ
Search / RetrievalNDCG (Normalized Discounted Cumulative Gain — Ranking-Qualität), MRR (Mean Reciprocal Rank — Position des ersten relevanten Ergebnisses), Context RelevanceRetrieval-Latenz, Zero-Result-Rate
ZusammenfassungLLM-as-Judge (Faithfulness, Coverage)User Satisfaction, gesparte Zeit
Chatbot / AssistentTask Completion Rate, User SatisfactionEscalation Rate, Antwortzeit
KlassifikationF1, AUC, per-Class Precision/RecallThreshold Sensitivity Analysis
Code-GenerierungFunktionale Korrektheit (Tests bestehen)User Acceptance Rate

Regeln für Stakeholder-Kommunikation:

  1. Immer in Business Impact uebersetzen: “92% Precision bedeutet 8 Fehlalarme pro 100 Flags — ca. 2 Stunden Analysten-Zeit taeglich”
  2. Tradeoffs zeigen, nicht Einzelzahlen: “Wir können die Trefferquote von 85% auf 95% erhöhen, aber Fehlalarme verdreifachen sich”
  3. Gegen den aktuellen Prozess benchmarken, nicht gegen Perfektion

Du bist PM bei einem E-Commerce-Unternehmen. Euer AI-Feature klassifiziert Produktbewertungen als echt oder fake. Das Data-Science-Team praesentiert zwei Modellvarianten:

Die Situation:

  • 50.000 Reviews/Monat, geschaetzt 8% Fake Reviews
  • Aktuell manuelle Pruefung durch 3 Moderatoren (Kosten: 12.000 EUR/Monat)
  • Jedes nicht erkannte Fake Review kostet durchschnittlich 45 EUR (Vertrauensverlust, Retouren)
  • Jedes faelschlich geloeschte echtes Review kostet durchschnittlich 15 EUR (veraerrgerter Kunde, Support)

Modell A: Precision 0.95, Recall 0.70 — wenige Fehlalarme, verpasst aber 30% der Fakes Modell B: Precision 0.78, Recall 0.92 — findet fast alle Fakes, loescht aber 22% echte Reviews faelschlich

Wie wuerdest Du entscheiden?

Die beste Entscheidung: Modell A mit Human Review für nicht erfasste Faelle.

Warum (die Rechnung):

  • Modell B — Kosten der False Positives: Bei 46.000 echten Reviews werden 22% faelschlich geloescht = 10.120 Reviews. Bei 15 EUR pro Fall = 151.800 EUR/Monat. Untragbar.
  • Modell A — Kosten der False Negatives: Bei 4.000 Fake Reviews werden 30% verpasst = 1.200 Reviews. Bei 45 EUR pro Fall = 54.000 EUR/Monat.
  • Modell A + Human Review: Die 1.200 verpassten Fakes plus Borderline-Faelle einem Moderator zuweisen. Kosten: ca. 4.000 EUR/Monat für einen Teilzeit-Moderator.
  • Gesamtkosten Modell A + Human Review: deutlich unter den 12.000 EUR des rein manuellen Prozesses — und massiv unter den 151.800 EUR von Modell B.

Haeufige Fehler:

  • “Hoeherer Recall ist immer besser” — Nicht wenn False Positives echte User treffen. Die Kostenasymmetrie entscheidet.
  • “Optimiere auf eine Metrik” — Reale Produkte brauchen Balance. Der PM definiert den akzeptablen Tradeoff.
  • “Accuracy reicht als Metrik” — Bei 8% Fake Rate würde ein Modell, das alles als “echt” labelt, 92% Accuracy erreichen.

Die Metrik-Auswahl ist eine Produktentscheidung, keine technische. Denn jede Metrik codiert einen Tradeoff — und der PM muss entscheiden, welchen Tradeoff die User akzeptieren können.

  • Precision vs. Recall ist kein technisches Detail — es ist die Frage, ob False Positives oder False Negatives für Dein Produkt schaedlicher sind.
  • Accuracy ist bei unbalancierten Datensaetzen truegerisch. Nutze F1, Precision und Recall — aufgeschluesselt nach Kategorien.
  • Uebersetze jede Metrik in Business Impact. “F1 = 0.88” sagt Stakeholdern nichts. “8 Fehlalarme pro 100 Flags” schon.

Quellen: Google ML Crash Course — Classification Metrics (2024), Evidently AI — Classification Metrics Guide (2025), RAGAS Framework Documentation (2025), Galileo — Accuracy Metrics for ML Engineers (2025), Deepchecks — F1 Score, Accuracy, ROC-AUC (2025)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn