Zum Inhalt springen
EN DE

Eval Frameworks

Dein Team hat ein AI-Feature gelauncht: Ein Chatbot beantwortet Kundenfragen zu Euren Produkten. Nach zwei Wochen beschweren sich User über falsche Antworten. Der CTO fragt: “Wie schlecht ist es genau?” Niemand kann antworten, weil es keine systematische Evaluation gibt.

Traditionelles Software-Testing prüft deterministisches Verhalten: Input X ergibt immer Output Y. AI-Systeme sind probabilistisch — derselbe Input kann bei jedem Durchlauf verschiedene Outputs erzeugen. Das macht klassische Unit Tests unzureichend. Evaluation (“Evals”) ist die Disziplin, AI-Output-Qualität systematisch zu messen, damit Teams mit Zuversicht iterieren können.

Hamel Husain und Shreya Shankar, die Entwickler des meistbesuchten AI-Evals-Kurses, bringen es auf den Punkt: “Your AI product needs evals” ist kein optionaler Ratschlag — es ist das Fundament jedes Verbesserungszyklus.

Der PM besitzt die Eval-Strategie, weil der PM definiert, was “gut” für den User bedeutet. Die Verantwortung verteilt sich so:

  • PM definiert Qualitaetskriterien (was für User und Business zaehlt)
  • Domain Expert labelt Golden Datasets und validiert Edge Cases
  • Engineer implementiert automatisierte Eval Pipelines und CI-Integration
  • PM + Domain Expert reviewen Ergebnisse und treffen Ship/No-Ship-Entscheidungen

Ein Golden Dataset ist ein kuratierter Satz von Input-Output-Paaren, bei denen der erwartete Output von einem Domain Expert verifiziert wurde. Es funktioniert wie eine Test Suite — das AI-System wird dagegen evaluiert.

So baust Du ein Golden Dataset auf:

  1. Echte Inputs sammeln — aus Production Logs, Support-Tickets, User Sessions. Nie ausschliesslich synthetische Daten verwenden.
  2. Diversitaet sicherstellen — Themen, Intentionen, Schwierigkeitsgrade, Edge Cases und adversarielle Inputs abdecken.
  3. Domain Experts labeln lassen — PASS/FAIL-Urteile statt 1-5-Skalen. Ein Experte, der User-Beduerfnisse versteht, ist wertvoller als zehn oberflaechliche Annotatoren.
  4. Reasoning dokumentieren — Für jedes Label erklärt der Experte kurz, warum der Output besteht oder durchfaellt.
  5. Klein starten, kontinuierlich wachsen — Mit 50-100 Beispielen beginnen. Production Failures als Regression Tests hinzufuegen.

LLM-as-Judge nutzt ein Sprachmodell, um die Outputs eines anderen Modells zu bewerten — Human Judgment im grossen Massstab. Die wichtigste Eval-Technik für generative AI-Produkte mit subjektiven Outputs.

Best Practices (2025 Konsens):

  • PASS/FAIL statt numerische Skalen — klareres Signal
  • Chain-of-Thought Reasoning im Judge Prompt erzwingen
  • Staerkeres Modell als Judge verwenden (z.B. Claude Opus bewertet Sonnet-Outputs)
  • Judge gegen Human Labels validieren — Ziel: 80%+ Uebereinstimmung
  • LLM-as-Judge bietet erhebliche Kostenersparnisse gegenueber Human Review (typisch 10-50x, abhaengig von Aufgabenkomplexitaet und Bewertungstiefe)

Automatisierung ersetzt nicht den menschlichen Blick:

  • Initiales Golden Dataset erstellen (kein Shortcut)
  • LLM-as-Judge-Genauigkeit validieren
  • Tone, Brand Voice, kulturelle Sensibilitaet bewerten
  • Husains Empfehlung: 30 Minuten, 20-50 Outputs manuell reviewen bei jeder signifikanten Änderung

Dein Weg zum ersten Eval-System:

SchrittAktionZeitrahmen
150 Production Outputs manuell mit Domain Expert reviewenTag 1-2
2Failure Modes kategorisieren (falsche Antwort, Halluzination, Ton, Format)Tag 2-3
3Golden Dataset mit 100 gelabelten Beispielen aufbauenWoche 1-2
4Einfaches Eval-Skript schreiben (kein fancy Tool)Woche 2
5LLM-as-Judge für subjektive Dimensionen hinzufuegenWoche 3
6In CI/CD mit Pass/Fail-Schwellenwerten integrierenWoche 4
7Production Sampling: % des Live-Traffic asynchron bewertenMonat 2
8Plattform-Tool adoptieren wenn Skalierung es erfordertMonat 3+

Du bist PM bei einem Legal-Tech-Startup. Euer AI-Feature fasst Vertraege zusammen (5.000 Summaries/Monat). Der VP Product will wissen, ob Ihr von GPT-4o auf Claude Sonnet wechseln koennt, um Kosten zu senken.

Die Situation:

  • Kein bestehendes Eval-System — Qualität wird aktuell per “Team vibes” bewertet
  • 3 Anwaelte im Team, die Domain-Expertise haben
  • Budget für Eval-Aufbau: 2 Wochen Engineering-Zeit
  • Stakeholder will Modell-Entscheidung in 4 Wochen

Optionen:

  1. Schnell-Vergleich: 20 Vertraege durch beide Modelle laufen lassen, Team stimmt ab
  2. Golden Dataset First: 2 Wochen investieren, um 100 Vertraege mit Anwaelten zu labeln, dann systematisch vergleichen
  3. Tool-First: Braintrust oder DeepEval lizenzieren, dann evaluieren
Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 2 — Golden Dataset First.

Warum:

  • Option 1 ist zu duenn: 20 Beispiele ohne strukturierte Kriterien sind ein Bauchgefuehl-Check, keine Evaluation. Bei 5.000 Summaries/Monat riskierst Du systematische Fehler, die in 20 Stichproben nicht auftauchen.
  • Option 2 schafft bleibendes Asset: Das Golden Dataset dient nicht nur für diesen Modellvergleich — es wird zum Fundament für jede zukuenftige Änderung (Prompt-Updates, neue Modelle, Feature-Erweiterungen).
  • Option 3 ist die falsche Reihenfolge: Tools verstaerken eine gute Eval-Strategie, sie ersetzen keine. Ohne Golden Dataset und klare Kriterien misst auch das beste Tool das Falsche.
  • Timeline passt: 2 Wochen Golden Dataset + 1 Woche Eval-Runs + 1 Woche Analyse = 4 Wochen.

Haeufige Fehler:

  • “Wir brauchen zuerst ein Tool” — Falsche Reihenfolge. Erst verstehen, was “gut” bedeutet.
  • “Generic Benchmarks reichen” — MMLU misst Modell-Faehigkeit, nicht Eure Produktqualitaet.
  • “Evals sind Engineering-Sache” — Ohne PM-Ownership der Kriterien baut Engineering technisch korrekte, aber produktirrelevante Tests.

Evals sind die wichtigste Kompetenz für AI PMs — weil sie definieren, was “gut” bedeutet, bevor es zu spaet ist.

  • Golden Datasets sind lebendige Artefakte: Klein starten (50-100 Beispiele), Production Failures als Regression Tests hinzufuegen, kontinuierlich wachsen lassen.
  • LLM-as-Judge skaliert Human Judgment um Groessenordnungen (typisch 10-50x guenstiger) — aber nur wenn der Judge gegen echte Human Labels validiert ist.
  • Die größte PM-Falle: “Wir brauchen zuerst ein Tool.” Starte mit manueller Error Analysis. 30 Minuten, 20-50 Outputs. Das zeigt mehr als jedes Dashboard.

Quellen: Hamel Husain — “Your AI Product Needs Evals” (2024), Husain & Shankar — AI Evals for Engineers & PMs (Maven, 2025), Lenny’s Newsletter — Building Eval Systems (2024), Pragmatic Engineer — “A Pragmatic Guide to LLM Evals” (2025), Evidently AI — LLM-as-a-Judge Guide (2025)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn