Zum Inhalt springen
EN DE

Agile für AI

Sprint Planning, Montag morgens. Dein Team schaetzt Stories für den nächsten Sprint. “AI-Zusammenfassung optimieren” steht im Backlog. Der ML-Engineer sagt: “Kann ich nicht schätzen. Vielleicht dauert es einen Tag, vielleicht zwei Wochen. Haengt davon ab, ob der neue Prompt-Ansatz funktioniert.” Der Scrum Master will Story Points. Der Engineer weigert sich.

Klassisches Agile nimmt an, dass Arbeit schaetzbar ist und Fortschritt ungefaehr linear verlaeuft. AI-Entwicklung bricht beide Annahmen. Experimente haben unvorhersehbare Ergebnisse. Qualität kann ploetzlich stagnieren oder zurueckfallen. “Definition of Done” ist bei probabilistischen Systemen nicht binaer.

Das heisst nicht, dass Agile für AI nutzlos ist — es heisst, dass es angepasst werden muss.

Agile-AnnahmeAI-Realität
Stories sind schaetzbarAI-Experimente haben unvorhersehbare Ergebnisse
Fortschritt ist inkrementellAI-Qualität kann stagnieren oder ploetzlich zurueckfallen
Definition of Done ist klar”Gut genug” ist subjektiv und verschiebt sich
Sprints produzieren shippable IncrementsAI-Prototypen können beweisen, dass ein Ansatz nicht machbar ist
Velocity stabilisiert sichAI-Entwicklungsgeschwindigkeit ist inhaerent variabel

Track 1: Exploration (Forschung/Experimente)

  • Timeboxed Experiments: “Können wir Qualität X mit Ansatz Y in Z Wochen erreichen?”
  • Outcome: Machbarkeitsassessment, nicht shippable Feature
  • Nicht in Story Points schaetzbar — stattdessen Timebox-Budgets
  • Kill-Kriterien vorab definieren: Wann wird ein Ansatz aufgegeben?

Track 2: Production (Bauen/Shippen)

  • Hier funktioniert klassisches Agile: Integration, UI, Infrastruktur, Deployment
  • Schaetzbar, inkrementell, sprintfaehig
  • Standard Velocity Tracking

Beide Tracks parallel laufen lassen ist der Schluessel. Waehrend Track 1 exploriert, ob ein neues Modell die Qualität verbessert, baut Track 2 die Produktionsinfrastruktur für den aktuellen Ansatz.

Sprint Planning:

  • AI-Experimente und Produktionsarbeit im Backlog trennen
  • Experimente bekommen Timeboxes, nicht Story Points: “2 Tage für Ansatz A, 3 Tage für Ansatz B”
  • Regel: Nicht mehr als 30% Sprint-Kapazitaet für Experimente (ausser in der fruehen Exploration)

Daily Standup:

  • “Experiment Status” zum Standup-Format hinzufuegen
  • Experimente, die nach ihrer Timebox keine Ergebnisse zeigen, eskalieren — nicht still verlaengern

Sprint Review:

  • Experimente mit Daten demonstrieren, nicht mit Meinungen: “Ansatz A erreicht 82% Accuracy auf dem Eval Set, Ansatz B 71%. Ansatz A addiert 200ms Latency. Empfehlung: Ansatz A mit Optimierung.”

Retrospektive:

  • Hinzufuegen: “Was haben wir gelernt, das wir nicht erwartet haben?”
  • Kill-Entscheidungen reviewen: Haben wir Ansaetze zu frueh oder zu spaet aufgegeben?

Für Exploration/Experiment-Arbeit:

  • NICHT in Story Points schätzen — das erzeugt falsche Praezision
  • Timeboxes nutzen: “Wir investieren 3 Tage in Ansatz X”
  • Klare Erfolgs-/Misserfolgs-Kriterien vorher definieren: “Wenn Accuracy nach 3 Tagen unter 75%, pivoten wir”
  • Budget: 20-30% der Teamkapazitaet für Experimente

Für Production/Integration-Arbeit:

  • Standard Story Points funktionieren
  • “Eval Infrastructure” Stories explizit einplanen — wird chronisch unterschaetzt
  • “Prompt Engineering” Stories explizit einplanen — ist echte Arbeit, nicht “nur Text tweaken”
  1. Frage definieren: “Kann Modell X mehr als 85% Accuracy bei unserer Zusammenfassungsaufgabe erreichen?”
  2. Timebox setzen: 2-5 Tage
  3. Eval definieren: Bestehendes Eval-Dataset oder minimales neues erstellen
  4. Experiment durchführen: Prototyp, Evaluierung, Dokumentation
  5. Zurueckberichten: Metriken, Learnings, Empfehlung (Weitermachen/Pivoten/Aufgeben)
  6. Decision Gate: PM + Tech Lead entscheiden nächsten Schritt

Wie AI-Entwicklung strukturieren — nach Reifegrad:

ReifegradExplorationProductionTimebox-Regel
Frueh (erstes AI-Feature)60%40% (Infrastruktur)Experiment max. 1 Woche
Mittel (AI-Feature validiert)30%70%Experiment max. 5 Tage
Reif (AI-Feature in Produktion)20%80% (Optimierung)Experiment max. 3 Tage

Immer: Experiment-Arbeit von Produktionsarbeit im Planning trennen. Kill-Kriterien vor Start definieren. Timeboxen, nie Open-ended Exploration.

Du bist PM eines AI-Produktteams. Euer AI-Feature (Dokumentenzusammenfassung) ist seit 3 Monaten in Produktion. Die Accuracy liegt bei 79% — euer Ziel ist 85%.

Sprint-Situation:

  • 2-Wochen-Sprint, Team von 4 Engineers + 1 ML-Engineer
  • Backlog: 3 Bug Fixes (Production), 1 neues Feature (User Feedback UI), 2 Improvement-Ideen (neuer Prompt-Ansatz, alternatives Chunking)
  • Der ML-Engineer will beide Improvement-Ideen im nächsten Sprint ausprobieren
  • Der Engineering Lead sagt: “Wir müssen die Bugs fixen und das Feature-UI bauen. Kein Platz für Experimente.”
  • Der Scrum Master fragt: “Wie viele Story Points sind die Improvements?”
Wie wuerdest Du entscheiden?

Die beste Entscheidung: Dual-Track anwenden. Bugs und Feature-UI auf Track 2 (Production). Ein Experiment auf Track 1 (Exploration) — nicht beide.

Konkrete Sprint-Planung:

  • 70% Production: 3 Bug Fixes + User Feedback UI (4 Engineers)
  • 30% Exploration: 1 Experiment, timeboxed auf 3 Tage (ML-Engineer)
  • Welches Experiment zuerst? Neuer Prompt-Ansatz — guenstigerer Aufwand, schnelleres Feedback. Alternatives Chunking ist aufwaendiger und kommt im nächsten Sprint
  • Kill-Kriterium: Wenn der neue Prompt nach 3 Tagen nicht mindestens 82% Accuracy erreicht (Halbweg zum Ziel), pivoten

Zum Scrum Master: “Experiments bekommen keine Story Points. Der ML-Engineer hat ein 3-Tage-Timebox-Budget. Ergebnis kann sein: ‘funktioniert’, ‘funktioniert nicht’ oder ‘braucht mehr Daten’. Alles davon ist ein valides Ergebnis.”

Was viele falsch machen: Entweder alle Experimente auf einmal starten (Kapazitaet ueberlastet) oder Experimente komplett aufschieben bis “wir Zeit haben” (kommt nie).

Agile ist nicht kaputt für AI — es braucht den Dual-Track: Exploration timeboxed, Production wie gewohnt.

  • AI-Experimente in Story Points zu schätzen erzeugt falsche Praezision und Frustration
  • Die Zwei-Wochen-Regel: Wenn zwei Wochen Experimentation nicht 70% der Zielqualitaet erreichen, muss der Ansatz hinterfragt werden
  • “Wir haben bewiesen, dass es nicht funktioniert” ist ein valides und wertvolles Sprint-Ergebnis

Quellen: Spotify Engineering Blog — ML Delivery Framework, Google AI Development Stage-Gate Process (Engineering Talks), Practitioner Pattern “Two-Week Rule”

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn