AI PRDs schreiben

Context

Dein Team will ein AI-Feature bauen: automatische Zusammenfassungen für Support-Tickets. Der Engineering Lead fragt nach dem PRD. Du oeffnest Dein gewohntes Template — Problem Statement, User Stories, Acceptance Criteria, Launch Timeline — und merkst: Irgendetwas fehlt.

Was bedeutet “Acceptance Criteria” bei einem Feature, das jedes Mal eine andere Antwort gibt? Wann ist eine Zusammenfassung “gut genug”? Und wer entscheidet das — ein QA-Engineer mit einer Checkliste oder ein Eval-Dataset mit 500 Beispielen?

Traditionelle PRDs definieren deterministisches Verhalten: Input X ergibt Output Y. AI PRDs müssen einen Qualitaetsbereich für probabilistische Outputs definieren: Input X ergibt Outputs, die Qualitaetsschwelle Z in mindestens P% der Faelle erfuellen.

Concept

Was ein AI PRD anders macht

Der größte Unterschied: Ein AI PRD enthaelt eine Evaluation Section, die das gesamte Dokument strukturiert.

Element	Traditionelles PRD	AI PRD
Anforderungen	Exaktes Verhalten	Qualitaetsschwellen + Eval-Kriterien
Erfolgskriterien	Feature funktioniert ja/nein	Accuracy, Latency, Cost Targets pro Use Case
Edge Cases	Jeden einzeln behandeln	Failure Modes und Graceful Degradation
Testing	Pass/Fail Testcases	Eval Datasets, Benchmarks, Human Judgment
Abnahme	QA Sign-off	Eval Metrics über Schwellenwert + Human Review

Die 7 Sektionen eines AI PRDs

1. Problem Statement & User Context — Wie beim klassischen PRD, aber mit Quantifizierung des manuellen Aufwands.

2. AI Approach & Rationale — Warum AI die richtige Lösung ist (vs. Regeln oder klassischer Code). Welcher Ansatz: LLM API, RAG, Fine-Tuning, Agent Workflow.

3. Evaluation Criteria — Die wichtigste neue Sektion. Golden Dataset, Metriken (Accuracy, Hallucination Rate, Latency, Cost-per-Query), Minimum-Schwellenwerte für Launch.

4. Model & Infrastructure — Modellauswahl-Begruendung, erwartetes Volumen, Kostenprojektion.

5. User Experience — Wie AI-Output praesentiert wird. Confidence Indicators, Fallback-Verhalten, Feedback-Mechanismus (Thumbs up/down, Regenerate).

6. Risk & Mitigation — Failure Modes, Guardrails, Bias-Betrachtung, Privacy.

7. Success Metrics & Iteration Plan — Launch-Metriken, Post-Launch Monitoring, Verbesserungskadenz.

Prompts als Produktspezifikation

Bei LLM-basierten Features ist der System Prompt effektiv die Produktspezifikation. Das ist ein Paradigmenwechsel:

Prompt-Aenderungen sind Produktaenderungen — sie brauchen Review, Testing und Versionierung
A/B-Testing von Prompts entspricht A/B-Testing von Features
Prompt Regression Testing (Evals nach Prompt-Aenderungen) ersetzt klassisches Regression Testing

Google behandelt Prompts als Code Artifacts: Version Control, Review-Pflicht, Eval Suites bei Aenderungen. Anthropic empfiehlt klare Definition von Rolle, Constraints und Output-Format im System Prompt.

Framework

Wann welches PRD-Format nutzen:

Feature-Typ	PRD-Format	Begruendung
Deterministischer Output	Traditionelles PRD	Kein probabilistisches Verhalten
AI mit binaerer Klassifikation	Hybrid-PRD (traditionell + Eval Section)	Output ist ja/nein, aber Accuracy variiert
Text-/Bild-Generierung	Volles AI PRD	Probabilistische, komplexe Outputs
Agent Workflow	Volles AI PRD + Agent Architecture	Mehrere AI-Komponenten, komplexe Failure Modes

Goldene Regel: Sobald eine AI-Komponente beteiligt ist, braucht das PRD Evaluation Criteria — auch wenn der Rest traditionell bleibt.

AI PRD Template

Das folgende Template ist ein Startpunkt — passe es an Dein Produkt und Deine Organisation an.

1. Problem Statement & User Context

Welches Problem loesen wir? Für wen?
Manueller Aufwand heute: ___ Stunden/Monat
Erwartete Reduktion: ___%

2. AI Approach & Rationale

Gewaehlter Ansatz: [ ] LLM API [ ] RAG [ ] Fine-Tuning [ ] Agent Workflow
Warum AI statt Regeln/klassischem Code: ___
Alternative Ansaetze evaluiert: ___

3. Evaluation Criteria

Golden Dataset: ___ Beispiele, Quelle: ___
Primaermetrik: ___ (z.B. Accuracy, ROUGE, Human Rating)
Minimum-Schwellenwert für Launch: ___
Sekundaermetriken: Hallucination Rate < ___%, Latency < ms, Cost < $/Query

4. Model & Infrastructure

Modell: ___ | Begruendung: ___
Erwartetes Volumen: ___ Anfragen/Monat
Kostenprojektion: $___/Monat bei erwartetem Volumen

5. User Experience

Output-Darstellung: ___
Confidence Indicator: [ ] Ja [ ] Nein
Fallback bei Low Confidence: ___
Feedback-Mechanismus: [ ] Thumbs [ ] Regenerate [ ] Edit [ ] Sonstiges

6. Risk & Mitigation

Top-3 Failure Modes: ___
Guardrails: ___
Bias-Betrachtung: ___
Privacy-Implikationen: ___

7. Success Metrics & Iteration Plan

Launch-Metrik: ___
Post-Launch Monitoring: ___ (Kadenz: taeglich/woechentlich)
Geplante Verbesserungskadenz: ___

Scenario: Duolingo Max — AI PRD für Sprachlernen mit GPT-4

Anfang 2023. OpenAI veroeffentlicht GPT-4. Duolingo — mit 500+ Millionen registrierten Nutzern die größte Sprachlern-App der Welt — sieht eine historische Chance: AI-gesteuerte Konversationen koennten das größte ungeloeste Problem im Sprachlernen angehen. Nutzer ueben Vokabeln und Grammatik, aber kaum jemand fuehrt echte Gespraeche. Ein LLM könnte das ändern.

Das Team bewegt sich schnell. Innerhalb weniger Wochen entsteht “Duolingo Max” — ein neues Premium-Tier für $30/Monat mit zwei GPT-4-Features.

Die Fakten:

Roleplay: Konversationsuebungen mit einem AI-Partner in realistischen Szenarien (Kaffee bestellen, nach dem Weg fragen)
Explain My Answer: AI erklärt, warum eine Antwort richtig oder falsch war — personalisiert, nicht aus einer Datenbank
Tech Stack: GPT-4 API kombiniert mit Duolingos proprietaerem “Birdbrain” ML-Modell, das die Sprachkompetenz jedes Nutzers trackt
Launch: Maerz 2023, zunaechst für Spanisch und Franzoesisch auf iOS
Ergebnis: Nur ~5% der zahlenden Subscriber upgradeten auf Max
Margin Impact: ~120 Basispunkte Margenverlust durch GPT-4 API-Kosten
Pivot: Duolingo Max wurde später zu “Duolingo Pro” — die AI-Features wanderten in alle bezahlten Tiers statt als Premium-Aufpreis zu bleiben

Die Frage: Stell Dir vor, Du schreibst das AI PRD für Duolingo Max vor dem Launch. Welche Evaluation Criteria wuerdest Du für “gute Konversation” definieren? Welches Cost Ceiling wuerdest Du setzen? Und wie misst Du, ob Nutzer durch Roleplay tatsaechlich besser eine Sprache lernen?

Decide

Was ist bei Duolingo Max passiert — und was hätte das PRD verhindern können?

Was passiert ist: Duolingo Max startete schnell, getrieben von Wettbewerbsdruck und der Verfuegbarkeit von GPT-4. Die Features funktionierten technisch. Aber die Unit Economics stimmten nicht: GPT-4 Inference-Kosten waren hoch, die Adoption mit ~5% der Subscriber niedrig, und $30/Monat lag über der Zahlungsbereitschaft der meisten Nutzer. Duolingo musste später den gesamten Pricing-Ansatz ueberarbeiten und die AI-Features in alle bezahlten Tiers integrieren.

Was ein AI PRD hätte flaggen müssen — angewandt auf das Template aus dieser Lektion:

3. Evaluation Criteria — die fehlende Kernfrage: Wie misst man, ob eine AI-Konversation “gut” war? Traditionelle NLP-Metriken (BLEU, ROUGE) messen Textuebereinstimmung — aber nicht, ob ein Lerner etwas gelernt hat. Duolingo brauchte Proxy-Metriken:

Engagement: Wie viele Roleplay-Sessions pro Woche? Wie lang?
Retention: Kommen Roleplay-Nutzer haeufiger zurück?
Lernfortschritt: Verbessern sich Nutzer schneller in den Birdbrain-Kompetenzwerten?
User Satisfaction: NPS oder qualitatives Feedback nach Sessions

Ohne diese Kriterien vorab zu definieren, gab es keine Baseline. Das Team konnte nicht beantworten: “Ist dieses Feature den Aufpreis wert?”

4. Model & Infrastructure — das fehlende Cost Ceiling: GPT-4 war Anfang 2023 eines der teuersten LLMs. Ein AI PRD hätte eine klare Kostenprojektion enthalten müssen: Kosten pro Roleplay-Session, maximaler Anteil an den Subscription-Erloesen, Break-Even bei welcher Adoption Rate. Die ~120 Basispunkte Margenverlust zeigen, dass diese Rechnung entweder nicht gemacht oder ignoriert wurde.

5. User Experience — die Pricing-Disconnect: $30/Monat für zwei AI-Features — zusätzlich zum bestehenden Abo. Das PRD hätte die Frage stellen müssen: Welchen wahrgenommenen Wert liefern diese Features? Nutzer zahlen für Ergebnisse (Sprache lernen), nicht für Technologie (GPT-4).

Die zentrale Lektion: Duolingo hatte die Technologie und die Nutzer. Was fehlte, war die PRD-Disziplin: klare Eval-Kriterien für Lernqualitaet, ein Cost Ceiling für Inference-Kosten und eine realistische Pricing-Validierung vor dem Launch.

Reflect

Evaluation Criteria sind bei AI-Features die haerteste PM-Arbeit: Bei Duolingo Max war die zentrale Herausforderung nicht technisch — GPT-4 konnte Konversationen fuehren. Die Herausforderung war zu definieren, was eine “gute” Konversation im Kontext von Sprachlernen überhaupt bedeutet. Ohne diese Definition fehlte die Grundlage für jede weitere Entscheidung.
Cost Ceiling gehört ins PRD, nicht in die Retro: Duolingos ~120 Basispunkte Margenverlust waren kein ueberraschendes Ergebnis — sie waren eine vorhersehbare Konsequenz fehlender Kostenplanung. Ein AI PRD mit klarer Kostenprojektion hätte frueher alternative Modelle oder Pricing-Strategien erzwungen.
“Schnell launchen” ist kein Ersatz für “richtig definieren”: Der Wettbewerbsdruck durch GPT-4 war real. Aber Geschwindigkeit ohne Eval-Kriterien fuehrt zu einem Produkt, das Du nicht messen, nicht verbessern und nicht verteidigen kannst — wie der spaetere Pivot von Max zu Pro gezeigt hat.
Ohne vordefinierte Qualitaetsschwellen gibt es keine Baseline für Verbesserung: Ein AI PRD ist kein traditionelles PRD mit “AI” im Titel. Die Evaluation Section verändert das gesamte Dokument — sie zwingt Dich, vor dem Bauen zu definieren, was “gut genug” bedeutet.

Quellen: Duolingo Earnings Calls Q1-Q3 2023, Duolingo Engineering Blog (“How Duolingo Uses AI”), The Verge — “Duolingo Max Review” (2023), Stratechery — “Duolingo and the AI Opportunity” (2023), OpenAI GPT-4 Technical Report (2023)