05 — Evaluation

Illustration: Evaluation — AI-Produktqualitaet messen

Bei deterministischer Software ist ein Test entweder gruen oder rot. Bei AI-Produkten ist die Antwort: “Es kommt darauf an.” Evaluation ist die Disziplin, die dieses “Es kommt darauf an” in messbare Entscheidungen verwandelt.

Was Du lernst

Wie Evaluation Frameworks funktionieren (Golden Datasets, LLM-as-Judge)
Welche Metriken für AI-Produkte relevant sind
Wie Red Teaming Schwachstellen findet, bevor Nutzer sie finden
Wann ein AI-Feature gut genug zum Shippen ist
Wie Du Bias erkennst und adressierst

Lektionen

Eval Frameworks
Metriken
Red Teaming
Ship/No-Ship
Bias
Synthese