AI Product Lifecycle

Context

Dein AI-Feature ist live. Die Zusammenfassungs-Funktion funktioniert, die Metriken sehen gut aus, das Team feiert den Launch. Drei Monate später: Die Qualität sinkt. Nutzer beschweren sich über schlechte Zusammenfassungen. Was ist passiert?

Niemand hat etwas geaendert — und genau das ist das Problem. Der Model Provider hat ein Update ausgerollt. Die Kundenanfragen haben sich verändert (neues Produktrelease). Die Wissensdatenbank ist veraltet. In der traditionellen Softwareentwicklung heisst “nichts ändern” Stabilitaet. Bei AI-Produkten heisst “nichts ändern” Qualitaetsverlust.

Concept

Der AI Product Lifecycle ist nicht linear

AI Product Lifecycle vs Traditional — Linear vs Circular

Traditionell: Discovery, Design, Build, Launch, Maintain AI: Discovery, Prototype, Evaluate, Build, Launch, Monitor, Re-evaluate, Improve, (Repeat)

Der entscheidende Unterschied: AI-Produkte erreichen nie eine stabile Maintenance-Phase. Modelle driften, Nutzerverhalten ändert sich, die Welt ändert sich, Wettbewerber verbessern sich. Ein AI-Produkt, das nicht aktiv verbessert wird, degradiert aktiv.

Die vier Phasen

Phase 1: Exploration & Prototyping (Wochen)

Ziel: Validieren, dass AI das Problem in akzeptabler Qualität loesen kann
Aktivitaeten: Prompt-Experimente, Modellvergleiche, Quick Prototypes
PM-Rolle: Problem klar genug definieren, um einen Prototyp bewertbar zu machen
Haeufiger Fehler: Diese Phase ueberspringen und sich nach einer Demo zum Full Build commiten

Phase 2: Evaluation & Hardening (Wochen bis Monate)

Ziel: Robuste Eval-Infrastruktur aufbauen und Quality Baselines setzen
Aktivitaeten: Eval Datasets erstellen, automatisierte Eval Pipelines, Human Evaluations
PM-Rolle: Definieren was “gut genug” für Nutzer bedeutet
Haeufiger Fehler: Ohne Eval-Infrastruktur launchen — “wir messen Qualität später”

Phase 3: Production & Scaling (Monate)

Ziel: An Nutzer ausliefern und realen Traffic verarbeiten
PM-Rolle: Quality Metrics monitoren, User Feedback managen, Verbesserungen priorisieren
Haeufiger Fehler: Launch als Ziellinie behandeln statt als Startlinie

Phase 4: Continuous Improvement (fortlaufend)

Ziel: Qualität aufrechterhalten und verbessern
Aktivitaeten: Model Updates, Prompt Refinement, Eval Dataset-Erweiterung
PM-Rolle: Improvement-Arbeit gegen neue Features priorisieren
Haeufiger Fehler: Nach Launch nicht mehr investieren und Qualität degradieren lassen

Model Versioning & Migration

Wenn Anthropic Claude aktualisiert, wenn OpenAI ein neues GPT veroeffentlicht — ändert sich das Verhalten Deines Produkts. Manchmal dramatisch.

Best Practices:

Produktionsmodelle nie automatisch upgraden — immer auf spezifische Versionen pinnen
Eval Suite auf neuem Modell laufen lassen, bevor migriert wird
Prompt-Anpassungen einplanen — optimierte Prompts für Modell A funktionieren anders auf Modell B
Rollback ermoeglichen — alte Konfiguration mindestens 2 Wochen nach Migration deploybar halten

Die Upgrade-Falle: Ein neues Modell kann auf allgemeinen Benchmarks besser abschneiden, aber auf Deinem spezifischen Use Case schlechter performen. Immer auf DEINEM Eval-Dataset evaluieren.

Drei Ebenen des Monitorings

Ebene	Was wird gemessen	Beispiele
Infrastructure	Standard-Betrieb	Uptime, Error Rates, Latency, Throughput
Quality (AI-spezifisch)	Output-Qualität	Sample Evaluations, Thumbs up/down Rate, Edit Distance, Drift Detection
Business Impact	Geschaeftswirkung	Adoption Trends, Task Completion, Cost-per-Query, Revenue Attribution

Ein Modell kann online und innerhalb der SLA sein, waehrend es schreckliche Outputs produziert. Quality Monitoring ist nicht optional.

Framework

Prioritaeten für Post-Launch Arbeit:

Priorität	Trigger	Aktion
URGENT	Quality Regression (Metriken unter Launch-Schwellenwerten)	Sofort fixen
HIGH	Model Provider Deprecation Notice	Migration mit Eval-Zyklus planen
MEDIUM	Graduelle Qualitaetsdrift (Metriken sinken langsam)	Improvement Sprint einplanen
LOW	Neues Modell mit besseren Benchmarks verfügbar	Evaluieren wenn aktuelle Performance nicht reicht

Immer: Eval-Infrastruktur als erstklassiges Produkt-Concern behandeln.

Scenario

Du bist PM eines AI-Schreibassistenten. Vor 4 Monaten habt ihr gelauncht. Die Situation heute:

Acceptance Rate (Nutzer übernehmen AI-Vorschlag): von 68% bei Launch auf 54% gefallen
Regeneration Rate (Nutzer klicken “Neu generieren”): von 12% auf 23% gestiegen
Latency: unveraendert bei P95 von 2,1 Sekunden
Kosten: $2.800/Monat, im Budget
Modell: Ihr nutzt immer noch die gleiche Version
Wissens-Update: Die interne Style-Guide-Datenbank wurde seit Launch nicht aktualisiert
Euer CEO fragt: “Sollen wir auf das neueste Modell upgraden? Das ist doch bestimmt besser.”

Die Infrastruktur-Metriken sind alle gruen. Aber die Qualität degradiert offensichtlich.

Decide

Wie wuerdest Du entscheiden?

Die beste Entscheidung: Nicht sofort auf ein neues Modell upgraden. Zuerst die Ursache der Qualitaetsdrift diagnostizieren.

Konkrete Schritte:

Style-Guide-Datenbank aktualisieren. Die wahrscheinlichste Ursache: Veralteter Context fuehrt zu Outputs, die nicht mehr zum aktuellen Stil passen
Sample-Analyse der Regenerations: Die 23% Regenerations-Faelle analysieren — gibt es Muster? Bestimmte Texttypen? Bestimmte Nutzergruppen?
Erst dann Modell-Upgrade evaluieren — auf dem eigenen Eval-Dataset, nicht auf allgemeinen Benchmarks

Warum nicht sofort upgraden:

Ein Modell-Upgrade ändert das Verhalten ueberall — auch dort, wo es gut funktioniert
Wenn die Ursache veralteter Context ist, hilft ein neues Modell nicht
Upgrade ohne Diagnose ist Symptombehandlung

Was viele falsch machen: Bei Qualitaetsproblemen reflexartig auf das neueste Modell upgraden, ohne die eigentliche Ursache zu verstehen. Oft ist es der Context, nicht das Modell.

Reflect

AI-Produkte haben keinen stabilen Endzustand — der Launch ist die Startlinie, nicht die Ziellinie.

Model Drift, Data Drift und sich aendernde Nutzererwartungen erfordern kontinuierliche Arbeit
Quality Monitoring ist getrennt von Infrastructure Monitoring — ein System kann online sein und trotzdem schlechte Outputs liefern
Model Upgrades sind keine kostenlosen Verbesserungen — jedes Upgrade braucht Evaluation auf dem eigenen Dataset

Quellen: Anthropic Documentation — Model Cards & Migration Guides (2025), Stripe Engineering Blog — ML System Lifecycle, Chip Huyen “Designing Machine Learning Systems” (O’Reilly, 2022)