AI PRDs schreiben
Context
Abschnitt betitelt „Context“Dein Team will ein AI-Feature bauen: automatische Zusammenfassungen für Support-Tickets. Der Engineering Lead fragt nach dem PRD. Du oeffnest Dein gewohntes Template — Problem Statement, User Stories, Acceptance Criteria, Launch Timeline — und merkst: Irgendetwas fehlt.
Was bedeutet “Acceptance Criteria” bei einem Feature, das jedes Mal eine andere Antwort gibt? Wann ist eine Zusammenfassung “gut genug”? Und wer entscheidet das — ein QA-Engineer mit einer Checkliste oder ein Eval-Dataset mit 500 Beispielen?
Traditionelle PRDs definieren deterministisches Verhalten: Input X ergibt Output Y. AI PRDs müssen einen Qualitaetsbereich für probabilistische Outputs definieren: Input X ergibt Outputs, die Qualitaetsschwelle Z in mindestens P% der Faelle erfuellen.
Concept
Abschnitt betitelt „Concept“Was ein AI PRD anders macht
Abschnitt betitelt „Was ein AI PRD anders macht“Der größte Unterschied: Ein AI PRD enthaelt eine Evaluation Section, die das gesamte Dokument strukturiert.
| Element | Traditionelles PRD | AI PRD |
|---|---|---|
| Anforderungen | Exaktes Verhalten | Qualitaetsschwellen + Eval-Kriterien |
| Erfolgskriterien | Feature funktioniert ja/nein | Accuracy, Latency, Cost Targets pro Use Case |
| Edge Cases | Jeden einzeln behandeln | Failure Modes und Graceful Degradation |
| Testing | Pass/Fail Testcases | Eval Datasets, Benchmarks, Human Judgment |
| Abnahme | QA Sign-off | Eval Metrics über Schwellenwert + Human Review |
Die 7 Sektionen eines AI PRDs
Abschnitt betitelt „Die 7 Sektionen eines AI PRDs“1. Problem Statement & User Context — Wie beim klassischen PRD, aber mit Quantifizierung des manuellen Aufwands.
2. AI Approach & Rationale — Warum AI die richtige Lösung ist (vs. Regeln oder klassischer Code). Welcher Ansatz: LLM API, RAG, Fine-Tuning, Agent Workflow.
3. Evaluation Criteria — Die wichtigste neue Sektion. Golden Dataset, Metriken (Accuracy, Hallucination Rate, Latency, Cost-per-Query), Minimum-Schwellenwerte für Launch.
4. Model & Infrastructure — Modellauswahl-Begruendung, erwartetes Volumen, Kostenprojektion.
5. User Experience — Wie AI-Output praesentiert wird. Confidence Indicators, Fallback-Verhalten, Feedback-Mechanismus (Thumbs up/down, Regenerate).
6. Risk & Mitigation — Failure Modes, Guardrails, Bias-Betrachtung, Privacy.
7. Success Metrics & Iteration Plan — Launch-Metriken, Post-Launch Monitoring, Verbesserungskadenz.
Prompts als Produktspezifikation
Abschnitt betitelt „Prompts als Produktspezifikation“Bei LLM-basierten Features ist der System Prompt effektiv die Produktspezifikation. Das ist ein Paradigmenwechsel:
- Prompt-Aenderungen sind Produktaenderungen — sie brauchen Review, Testing und Versionierung
- A/B-Testing von Prompts entspricht A/B-Testing von Features
- Prompt Regression Testing (Evals nach Prompt-Aenderungen) ersetzt klassisches Regression Testing
Google behandelt Prompts als Code Artifacts: Version Control, Review-Pflicht, Eval Suites bei Aenderungen. Anthropic empfiehlt klare Definition von Rolle, Constraints und Output-Format im System Prompt.
Framework
Abschnitt betitelt „Framework“Wann welches PRD-Format nutzen:
| Feature-Typ | PRD-Format | Begruendung |
|---|---|---|
| Deterministischer Output | Traditionelles PRD | Kein probabilistisches Verhalten |
| AI mit binaerer Klassifikation | Hybrid-PRD (traditionell + Eval Section) | Output ist ja/nein, aber Accuracy variiert |
| Text-/Bild-Generierung | Volles AI PRD | Probabilistische, komplexe Outputs |
| Agent Workflow | Volles AI PRD + Agent Architecture | Mehrere AI-Komponenten, komplexe Failure Modes |
Goldene Regel: Sobald eine AI-Komponente beteiligt ist, braucht das PRD Evaluation Criteria — auch wenn der Rest traditionell bleibt.
AI PRD Template
Abschnitt betitelt „AI PRD Template“Das folgende Template ist ein Startpunkt — passe es an Dein Produkt und Deine Organisation an.
Scenario: Duolingo Max — AI PRD für Sprachlernen mit GPT-4
Abschnitt betitelt „Scenario: Duolingo Max — AI PRD für Sprachlernen mit GPT-4“Anfang 2023. OpenAI veroeffentlicht GPT-4. Duolingo — mit 500+ Millionen registrierten Nutzern die größte Sprachlern-App der Welt — sieht eine historische Chance: AI-gesteuerte Konversationen koennten das größte ungeloeste Problem im Sprachlernen angehen. Nutzer ueben Vokabeln und Grammatik, aber kaum jemand fuehrt echte Gespraeche. Ein LLM könnte das ändern.
Das Team bewegt sich schnell. Innerhalb weniger Wochen entsteht “Duolingo Max” — ein neues Premium-Tier für $30/Monat mit zwei GPT-4-Features.
Die Fakten:
- Roleplay: Konversationsuebungen mit einem AI-Partner in realistischen Szenarien (Kaffee bestellen, nach dem Weg fragen)
- Explain My Answer: AI erklärt, warum eine Antwort richtig oder falsch war — personalisiert, nicht aus einer Datenbank
- Tech Stack: GPT-4 API kombiniert mit Duolingos proprietaerem “Birdbrain” ML-Modell, das die Sprachkompetenz jedes Nutzers trackt
- Launch: Maerz 2023, zunaechst für Spanisch und Franzoesisch auf iOS
- Ergebnis: Nur ~5% der zahlenden Subscriber upgradeten auf Max
- Margin Impact: ~120 Basispunkte Margenverlust durch GPT-4 API-Kosten
- Pivot: Duolingo Max wurde später zu “Duolingo Pro” — die AI-Features wanderten in alle bezahlten Tiers statt als Premium-Aufpreis zu bleiben
Die Frage: Stell Dir vor, Du schreibst das AI PRD für Duolingo Max vor dem Launch. Welche Evaluation Criteria wuerdest Du für “gute Konversation” definieren? Welches Cost Ceiling wuerdest Du setzen? Und wie misst Du, ob Nutzer durch Roleplay tatsaechlich besser eine Sprache lernen?
Was ist bei Duolingo Max passiert — und was hätte das PRD verhindern können?
Was passiert ist: Duolingo Max startete schnell, getrieben von Wettbewerbsdruck und der Verfuegbarkeit von GPT-4. Die Features funktionierten technisch. Aber die Unit Economics stimmten nicht: GPT-4 Inference-Kosten waren hoch, die Adoption mit ~5% der Subscriber niedrig, und $30/Monat lag über der Zahlungsbereitschaft der meisten Nutzer. Duolingo musste später den gesamten Pricing-Ansatz ueberarbeiten und die AI-Features in alle bezahlten Tiers integrieren.
Was ein AI PRD hätte flaggen müssen — angewandt auf das Template aus dieser Lektion:
3. Evaluation Criteria — die fehlende Kernfrage: Wie misst man, ob eine AI-Konversation “gut” war? Traditionelle NLP-Metriken (BLEU, ROUGE) messen Textuebereinstimmung — aber nicht, ob ein Lerner etwas gelernt hat. Duolingo brauchte Proxy-Metriken:
- Engagement: Wie viele Roleplay-Sessions pro Woche? Wie lang?
- Retention: Kommen Roleplay-Nutzer haeufiger zurück?
- Lernfortschritt: Verbessern sich Nutzer schneller in den Birdbrain-Kompetenzwerten?
- User Satisfaction: NPS oder qualitatives Feedback nach Sessions
Ohne diese Kriterien vorab zu definieren, gab es keine Baseline. Das Team konnte nicht beantworten: “Ist dieses Feature den Aufpreis wert?”
4. Model & Infrastructure — das fehlende Cost Ceiling: GPT-4 war Anfang 2023 eines der teuersten LLMs. Ein AI PRD hätte eine klare Kostenprojektion enthalten müssen: Kosten pro Roleplay-Session, maximaler Anteil an den Subscription-Erloesen, Break-Even bei welcher Adoption Rate. Die ~120 Basispunkte Margenverlust zeigen, dass diese Rechnung entweder nicht gemacht oder ignoriert wurde.
5. User Experience — die Pricing-Disconnect: $30/Monat für zwei AI-Features — zusätzlich zum bestehenden Abo. Das PRD hätte die Frage stellen müssen: Welchen wahrgenommenen Wert liefern diese Features? Nutzer zahlen für Ergebnisse (Sprache lernen), nicht für Technologie (GPT-4).
Die zentrale Lektion: Duolingo hatte die Technologie und die Nutzer. Was fehlte, war die PRD-Disziplin: klare Eval-Kriterien für Lernqualitaet, ein Cost Ceiling für Inference-Kosten und eine realistische Pricing-Validierung vor dem Launch.
Reflect
Abschnitt betitelt „Reflect“- Evaluation Criteria sind bei AI-Features die haerteste PM-Arbeit: Bei Duolingo Max war die zentrale Herausforderung nicht technisch — GPT-4 konnte Konversationen fuehren. Die Herausforderung war zu definieren, was eine “gute” Konversation im Kontext von Sprachlernen überhaupt bedeutet. Ohne diese Definition fehlte die Grundlage für jede weitere Entscheidung.
- Cost Ceiling gehört ins PRD, nicht in die Retro: Duolingos ~120 Basispunkte Margenverlust waren kein ueberraschendes Ergebnis — sie waren eine vorhersehbare Konsequenz fehlender Kostenplanung. Ein AI PRD mit klarer Kostenprojektion hätte frueher alternative Modelle oder Pricing-Strategien erzwungen.
- “Schnell launchen” ist kein Ersatz für “richtig definieren”: Der Wettbewerbsdruck durch GPT-4 war real. Aber Geschwindigkeit ohne Eval-Kriterien fuehrt zu einem Produkt, das Du nicht messen, nicht verbessern und nicht verteidigen kannst — wie der spaetere Pivot von Max zu Pro gezeigt hat.
- Ohne vordefinierte Qualitaetsschwellen gibt es keine Baseline für Verbesserung: Ein AI PRD ist kein traditionelles PRD mit “AI” im Titel. Die Evaluation Section verändert das gesamte Dokument — sie zwingt Dich, vor dem Bauen zu definieren, was “gut genug” bedeutet.
Quellen: Duolingo Earnings Calls Q1-Q3 2023, Duolingo Engineering Blog (“How Duolingo Uses AI”), The Verge — “Duolingo Max Review” (2023), Stratechery — “Duolingo and the AI Opportunity” (2023), OpenAI GPT-4 Technical Report (2023)