05 — Evaluation
Bei deterministischer Software ist ein Test entweder gruen oder rot. Bei AI-Produkten ist die Antwort: “Es kommt darauf an.” Evaluation ist die Disziplin, die dieses “Es kommt darauf an” in messbare Entscheidungen verwandelt.
Was Du lernst
Abschnitt betitelt „Was Du lernst“- Wie Evaluation Frameworks funktionieren (Golden Datasets, LLM-as-Judge)
- Welche Metriken für AI-Produkte relevant sind
- Wie Red Teaming Schwachstellen findet, bevor Nutzer sie finden
- Wann ein AI-Feature gut genug zum Shippen ist
- Wie Du Bias erkennst und adressierst