Zum Inhalt springen
EN DE

05 — Evaluation

Bei deterministischer Software ist ein Test entweder gruen oder rot. Bei AI-Produkten ist die Antwort: “Es kommt darauf an.” Evaluation ist die Disziplin, die dieses “Es kommt darauf an” in messbare Entscheidungen verwandelt.

  • Wie Evaluation Frameworks funktionieren (Golden Datasets, LLM-as-Judge)
  • Welche Metriken für AI-Produkte relevant sind
  • Wie Red Teaming Schwachstellen findet, bevor Nutzer sie finden
  • Wann ein AI-Feature gut genug zum Shippen ist
  • Wie Du Bias erkennst und adressierst
  1. Eval Frameworks
  2. Metriken
  3. Red Teaming
  4. Ship/No-Ship
  5. Bias
  6. Synthese

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn