Level 6 Complete
Level 6 abgeschlossen! Du hast eine komplette Eval-Pipeline gebaut — von der ersten Evalite-Eval über deterministische Scorer bis zu LLM-as-Judge und Production-Monitoring mit Langfuse. Du kannst jetzt LLM-Ausgaben systematisch messen, vergleichen und verbessern. Das ist Eval-Driven Development — ein Skill, den die meisten AI Engineers erst spaet lernen.
Was Du Gelernt Hast
Abschnitt betitelt „Was Du Gelernt Hast“- Evalite Basics: Das TypeScript-native Eval-Framework mit
data,taskundscorers—.eval.tsDateien,traceAISDKModelfür AI SDK Integration, Dashboard unter localhost:3006 - Deterministic Eval: Schnelle, guenstige Scorer ohne LLM — Inline Scorer,
createScorerfür Wiederverwendbarkeit, Levenshtein aus der Autoevals Library, abgestufte Scores (0-1) - LLM-as-a-Judge: Ein LLM bewertet die Ausgabe eines anderen — Factuality Scorer mit
generateObjectund Zod Schema, Score-Skala (A-E), Rationale für Nachvollziehbarkeit - Dataset Management: Repraesentative, diverse Test-Daten mit 20-50 Cases für die Entwicklung — Kategorien systematisch abdecken, Edge Cases einbeziehen, Dataset Critiquing mit LLM
- Langfuse: Production-Observability für LLM-Anwendungen — Traces, Generations, Scores, Kosten-Monitoring. Evalite für Development, Langfuse für Production
Aktualisierter Skill Tree
Abschnitt betitelt „Aktualisierter Skill Tree“Naechstes Level
Abschnitt betitelt „Naechstes Level“Level 7: Streaming — Wie lieferst Du LLM-Antworten in Echtzeit an den User? Du lernst Stream Events, partielle Updates und wie Du Streaming-UIs baust, die sich anfuehlen, als würde das LLM live tippen.