Zum Inhalt springen
EN DE

AI Product Lifecycle

Dein AI-Feature ist live. Die Zusammenfassungs-Funktion funktioniert, die Metriken sehen gut aus, das Team feiert den Launch. Drei Monate später: Die Qualität sinkt. Nutzer beschweren sich über schlechte Zusammenfassungen. Was ist passiert?

Niemand hat etwas geaendert — und genau das ist das Problem. Der Model Provider hat ein Update ausgerollt. Die Kundenanfragen haben sich verändert (neues Produktrelease). Die Wissensdatenbank ist veraltet. In der traditionellen Softwareentwicklung heisst “nichts ändern” Stabilitaet. Bei AI-Produkten heisst “nichts ändern” Qualitaetsverlust.

AI Product Lifecycle vs Traditional — Linear vs Circular

Traditionell: Discovery, Design, Build, Launch, Maintain AI: Discovery, Prototype, Evaluate, Build, Launch, Monitor, Re-evaluate, Improve, (Repeat)

Der entscheidende Unterschied: AI-Produkte erreichen nie eine stabile Maintenance-Phase. Modelle driften, Nutzerverhalten ändert sich, die Welt ändert sich, Wettbewerber verbessern sich. Ein AI-Produkt, das nicht aktiv verbessert wird, degradiert aktiv.

Phase 1: Exploration & Prototyping (Wochen)

  • Ziel: Validieren, dass AI das Problem in akzeptabler Qualität loesen kann
  • Aktivitaeten: Prompt-Experimente, Modellvergleiche, Quick Prototypes
  • PM-Rolle: Problem klar genug definieren, um einen Prototyp bewertbar zu machen
  • Haeufiger Fehler: Diese Phase ueberspringen und sich nach einer Demo zum Full Build commiten

Phase 2: Evaluation & Hardening (Wochen bis Monate)

  • Ziel: Robuste Eval-Infrastruktur aufbauen und Quality Baselines setzen
  • Aktivitaeten: Eval Datasets erstellen, automatisierte Eval Pipelines, Human Evaluations
  • PM-Rolle: Definieren was “gut genug” für Nutzer bedeutet
  • Haeufiger Fehler: Ohne Eval-Infrastruktur launchen — “wir messen Qualität später”

Phase 3: Production & Scaling (Monate)

  • Ziel: An Nutzer ausliefern und realen Traffic verarbeiten
  • PM-Rolle: Quality Metrics monitoren, User Feedback managen, Verbesserungen priorisieren
  • Haeufiger Fehler: Launch als Ziellinie behandeln statt als Startlinie

Phase 4: Continuous Improvement (fortlaufend)

  • Ziel: Qualität aufrechterhalten und verbessern
  • Aktivitaeten: Model Updates, Prompt Refinement, Eval Dataset-Erweiterung
  • PM-Rolle: Improvement-Arbeit gegen neue Features priorisieren
  • Haeufiger Fehler: Nach Launch nicht mehr investieren und Qualität degradieren lassen

Wenn Anthropic Claude aktualisiert, wenn OpenAI ein neues GPT veroeffentlicht — ändert sich das Verhalten Deines Produkts. Manchmal dramatisch.

Best Practices:

  1. Produktionsmodelle nie automatisch upgraden — immer auf spezifische Versionen pinnen
  2. Eval Suite auf neuem Modell laufen lassen, bevor migriert wird
  3. Prompt-Anpassungen einplanen — optimierte Prompts für Modell A funktionieren anders auf Modell B
  4. Rollback ermoeglichen — alte Konfiguration mindestens 2 Wochen nach Migration deploybar halten

Die Upgrade-Falle: Ein neues Modell kann auf allgemeinen Benchmarks besser abschneiden, aber auf Deinem spezifischen Use Case schlechter performen. Immer auf DEINEM Eval-Dataset evaluieren.

EbeneWas wird gemessenBeispiele
InfrastructureStandard-BetriebUptime, Error Rates, Latency, Throughput
Quality (AI-spezifisch)Output-QualitätSample Evaluations, Thumbs up/down Rate, Edit Distance, Drift Detection
Business ImpactGeschaeftswirkungAdoption Trends, Task Completion, Cost-per-Query, Revenue Attribution

Ein Modell kann online und innerhalb der SLA sein, waehrend es schreckliche Outputs produziert. Quality Monitoring ist nicht optional.

Prioritaeten für Post-Launch Arbeit:

PrioritätTriggerAktion
URGENTQuality Regression (Metriken unter Launch-Schwellenwerten)Sofort fixen
HIGHModel Provider Deprecation NoticeMigration mit Eval-Zyklus planen
MEDIUMGraduelle Qualitaetsdrift (Metriken sinken langsam)Improvement Sprint einplanen
LOWNeues Modell mit besseren Benchmarks verfügbarEvaluieren wenn aktuelle Performance nicht reicht

Immer: Eval-Infrastruktur als erstklassiges Produkt-Concern behandeln.

Du bist PM eines AI-Schreibassistenten. Vor 4 Monaten habt ihr gelauncht. Die Situation heute:

  • Acceptance Rate (Nutzer übernehmen AI-Vorschlag): von 68% bei Launch auf 54% gefallen
  • Regeneration Rate (Nutzer klicken “Neu generieren”): von 12% auf 23% gestiegen
  • Latency: unveraendert bei P95 von 2,1 Sekunden
  • Kosten: $2.800/Monat, im Budget
  • Modell: Ihr nutzt immer noch die gleiche Version
  • Wissens-Update: Die interne Style-Guide-Datenbank wurde seit Launch nicht aktualisiert
  • Euer CEO fragt: “Sollen wir auf das neueste Modell upgraden? Das ist doch bestimmt besser.”

Die Infrastruktur-Metriken sind alle gruen. Aber die Qualität degradiert offensichtlich.

Wie wuerdest Du entscheiden?

Die beste Entscheidung: Nicht sofort auf ein neues Modell upgraden. Zuerst die Ursache der Qualitaetsdrift diagnostizieren.

Konkrete Schritte:

  1. Style-Guide-Datenbank aktualisieren. Die wahrscheinlichste Ursache: Veralteter Context fuehrt zu Outputs, die nicht mehr zum aktuellen Stil passen
  2. Sample-Analyse der Regenerations: Die 23% Regenerations-Faelle analysieren — gibt es Muster? Bestimmte Texttypen? Bestimmte Nutzergruppen?
  3. Erst dann Modell-Upgrade evaluieren — auf dem eigenen Eval-Dataset, nicht auf allgemeinen Benchmarks

Warum nicht sofort upgraden:

  • Ein Modell-Upgrade ändert das Verhalten ueberall — auch dort, wo es gut funktioniert
  • Wenn die Ursache veralteter Context ist, hilft ein neues Modell nicht
  • Upgrade ohne Diagnose ist Symptombehandlung

Was viele falsch machen: Bei Qualitaetsproblemen reflexartig auf das neueste Modell upgraden, ohne die eigentliche Ursache zu verstehen. Oft ist es der Context, nicht das Modell.

AI-Produkte haben keinen stabilen Endzustand — der Launch ist die Startlinie, nicht die Ziellinie.

  • Model Drift, Data Drift und sich aendernde Nutzererwartungen erfordern kontinuierliche Arbeit
  • Quality Monitoring ist getrennt von Infrastructure Monitoring — ein System kann online sein und trotzdem schlechte Outputs liefern
  • Model Upgrades sind keine kostenlosen Verbesserungen — jedes Upgrade braucht Evaluation auf dem eigenen Dataset

Quellen: Anthropic Documentation — Model Cards & Migration Guides (2025), Stripe Engineering Blog — ML System Lifecycle, Chip Huyen “Designing Machine Learning Systems” (O’Reilly, 2022)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn