Zum Inhalt springen
EN DE

Level 6 Complete

Level 6 abgeschlossen! Du hast eine komplette Eval-Pipeline gebaut — von der ersten Evalite-Eval über deterministische Scorer bis zu LLM-as-Judge und Production-Monitoring mit Langfuse. Du kannst jetzt LLM-Ausgaben systematisch messen, vergleichen und verbessern. Das ist Eval-Driven Development — ein Skill, den die meisten AI Engineers erst spaet lernen.

  • Evalite Basics: Das TypeScript-native Eval-Framework mit data, task und scorers.eval.ts Dateien, traceAISDKModel für AI SDK Integration, Dashboard unter localhost:3006
  • Deterministic Eval: Schnelle, guenstige Scorer ohne LLM — Inline Scorer, createScorer für Wiederverwendbarkeit, Levenshtein aus der Autoevals Library, abgestufte Scores (0-1)
  • LLM-as-a-Judge: Ein LLM bewertet die Ausgabe eines anderen — Factuality Scorer mit generateObject und Zod Schema, Score-Skala (A-E), Rationale für Nachvollziehbarkeit
  • Dataset Management: Repraesentative, diverse Test-Daten mit 20-50 Cases für die Entwicklung — Kategorien systematisch abdecken, Edge Cases einbeziehen, Dataset Critiquing mit LLM
  • Langfuse: Production-Observability für LLM-Anwendungen — Traces, Generations, Scores, Kosten-Monitoring. Evalite für Development, Langfuse für Production
Skill Tree — Level 6 Evals abgeschlossen, Level 7 Streaming ist das nächste Level

Level 7: Streaming — Wie lieferst Du LLM-Antworten in Echtzeit an den User? Du lernst Stream Events, partielle Updates und wie Du Streaming-UIs baust, die sich anfuehlen, als würde das LLM live tippen.

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn