Prompt Engineering
Context
Abschnitt betitelt „Context“Dein AI-Feature liefert inkonsistente Ergebnisse. Mal ist die Zusammenfassung perfekt, mal voellig daneben. Das Engineering-Team schlägt Fine-Tuning vor — drei Wochen Aufwand, 15.000 Euro Budget. Dein Tech Lead fragt: “Habt ihr den Prompt schon optimiert?”
Prompt Engineering ist der schnellste, guenstigste Hebel, um AI-Output-Qualität zu verbessern. Für PMs ist es mehr als ein technisches Detail: Der Prompt ist die Produktspezifikation. Er definiert Verhalten, Ton, Format und Grenzen Deines AI-Features. Wer den Prompt versteht, versteht das Produkt.
Concept
Abschnitt betitelt „Concept“Die Prompting-Hierarchie
Abschnitt betitelt „Die Prompting-Hierarchie“Nicht jede Aufgabe braucht die gleiche Technik. Die Kunst liegt darin, mit der einfachsten Methode zu starten und nur bei Bedarf zu eskalieren.
Zero-Shot: Nur die Aufgabe beschreiben, keine Beispiele. Funktioniert für gut verstandene Tasks wie Zusammenfassungen oder Uebersetzungen. Starte immer hier — minimale Tokens, schnellste Iteration.
Few-Shot: 1-5 Beispiele von gewuenschten Input-Output-Paaren mitgeben. Forschung zeigt starke Verbesserungen ab 1-2 Beispielen, mit abnehmenden Ertraegen ab 4-5. PM-Falle: 10+ Beispiele “zur Sicherheit” verschwenden Tokens und können das Modell verwirren.
Chain-of-Thought (CoT): Das Modell anweisen, Schritt für Schritt zu denken. Bringt laut der urspruenglichen Benchmark-Studie bis zu 19 Punkte Verbesserung bei komplexen Reasoning-Aufgaben (MMLU-Pro Benchmark). Aber Vorsicht: Bei Reasoning-Modellen (o-Serie, Claude Extended Thinking) ist explizites CoT redundant — sie machen es intern bereits.
System Prompts: Der unsichtbare Rahmen, der Rolle, Einschraenkungen und Verhalten definiert. System Prompts werden typischerweise gecacht (Anthropic berechnet 0,1x des Basispreises für gecachte Reads) — kosteneffizient bei wiederholter Nutzung.
Fortgeschrittene Techniken
Abschnitt betitelt „Fortgeschrittene Techniken“Structured Output: JSON, XML oder YAML als Antwortformat erzwingen. Alle grossen Anbieter unterstuetzen das nativ. Unverzichtbar, wenn AI-Output in nachgelagerte Systeme fliesst (APIs, Datenbanken, UI-Rendering).
Self-Consistency: Denselben Prompt mehrfach ausführen, Mehrheitsantwort nehmen. Erhoeht Genauigkeit bei 3-5x Kosten — nur für High-Stakes-Entscheidungen.
Blended Prompting (aktuelles Best Practice): Few-Shot + Role Instruction + Format Constraints + CoT in einem Prompt kombiniert. Die meisten Production-Prompts nutzen diesen Ansatz.
Prompt Security — was PMs wissen müssen
Abschnitt betitelt „Prompt Security — was PMs wissen müssen“Prompts sind keine geschuetzten Befehle — sie sind angreifbar. PMs müssen die wichtigsten Risiken kennen:
- Prompt Injection: Nutzer-Input ueberschreibt die System-Anweisung (“Ignoriere alle vorherigen Anweisungen und…”). Verteidigung: Input Sanitization, klar getrennte System-/User-Prompts, Output-Validierung
- Jailbreaking: Kreative Umgehung von Sicherheits-Guardrails. Kein Prompt allein schuetzt dagegen — mehrere Defense-Layer noetig (Input-Filter, Output-Filter, Monitoring)
- Data Exfiltration: Das Modell gibt Informationen aus dem System Prompt oder Kontext preis, die nicht für den Nutzer bestimmt sind
PM-Entscheidung: Welche Aktionen darf das AI-Feature ausführen? Je mehr Autonomie (E-Mails senden, Daten ändern), desto kritischer wird Prompt Security. Bei High-Stakes-Features gehört Security-Testing (Red Teaming, s. Kapitel 5) in den Launch-Prozess.
Was PMs falsch verstehen
Abschnitt betitelt „Was PMs falsch verstehen“- “Laengere Prompts = bessere Ergebnisse.” Falsch. Uebermaessig lange Prompts verduennen das Signal. Praezise Anweisungen schlagen langatmige.
- “Prompt Engineering ist eine Engineering-Aufgabe.” Teilweise falsch. Der Prompt definiert Produktverhalten — PMs sollten Prompt-Design besitzen (Verhalten, Constraints, Ton), Engineers die Integration.
- “Ein perfekter Prompt funktioniert ewig.” Falsch. Model-Updates ändern Verhalten. Prompts brauchen Versionierung und Monitoring wie jedes Feature.
Framework
Abschnitt betitelt „Framework“Die Complexity-Stakes-Matrix:
| Einfache Aufgabe (Klassifikation, Extraktion) | Komplexe Aufgabe (Reasoning, Generierung) | |
|---|---|---|
| Niedriges Risiko | Zero-Shot, Temperatur 0-0.2 | CoT, Temperatur 0.3-0.7 |
| Hohes Risiko | Few-Shot + Validierungslayer | CoT + Self-Consistency + Human Review |
Eskalationspfad: Zero-Shot, dann Few-Shot, dann CoT, dann Prompt Chaining, dann Self-Consistency. Stoppe bei der ersten Stufe, die Deine Qualitaetsanforderungen erfuellt.
| Technik | Token-Overhead | Latenz-Impact | Wann einsetzen |
|---|---|---|---|
| Zero-Shot | Minimal | Niedrigste | Immer zuerst |
| Few-Shot (3 Beispiele) | +200-500 Tokens | Niedrig | Bei spezifischen Zero-Shot-Fehlern |
| Chain-of-Thought | +100-2000 Tokens Output | Mittel | Komplexe Reasoning-Aufgaben |
| System Prompt (gecacht) | Erster Call: volle Kosten; danach: 0.1x | Keiner nach dem ersten | Immer für Product Features |
| Self-Consistency (5 Runs) | 5x Gesamtkosten | 5x Latenz | Nur bei High-Stakes-Entscheidungen |
Scenario
Abschnitt betitelt „Scenario“Du bist PM bei einem Legal-Tech SaaS (B2B, 2.000 Kanzleien). Euer naechstes Feature: automatische Vertragsklausel-Analyse. Der erste Prototyp nutzt Zero-Shot und liefert bei 60% der Klauseln korrekte Risikoeinschaetzungen.
Die Situation:
- Zielgenauigkeit: 90%+ (juristische Nutzung erfordert hohe Praezision)
- Budget: 8.000 Euro für die erste Iteration
- Volumen: 25.000 Klauseln/Monat
- Zeitdruck: Feature-Launch in 4 Wochen
- Engineering-Team schlägt Fine-Tuning vor (3 Wochen, 15.000 Euro)
Optionen:
- Fine-Tuning: 3 Wochen Entwicklung, 15.000 Euro, 500+ gelabelte Beispiele noetig
- Few-Shot + CoT: 3-5 Beispiele von Experten-Analysen als Vorlage, Schritt-für-Schritt-Reasoning erzwingen. 2-3 Tage Arbeit, unter 500 Euro Prompt-Kosten
- Blended Prompt: System Prompt (Rolle: Senior-Jurist) + 3 Few-Shot-Beispiele + CoT + Structured Output (JSON mit Risikolevel und Begruendung). 1 Woche inkl. Testing
Wie wuerdest Du entscheiden?
Die beste Entscheidung: Option 3 — Blended Prompt.
Warum:
- Eskalationspfad einhalten: Zero-Shot liefert 60%. Bevor Du Fine-Tuning anfaengst, musst Du die Prompt-Optionen ausschoepfen. Das ist nicht optional, sondern Best Practice
- Kosten-Risiko: Fine-Tuning für 15.000 Euro bei einem Feature, das mit besserem Prompting möglicherweise 90%+ erreicht, ist voreilig. Die Praxis-Erfahrung vieler Teams zeigt: Fine-Tuning eines schwachen Modells verliert oft gegen gutes Prompting eines starken Modells
- Structured Output ist entscheidend: JSON mit Risikolevel + Begruendung macht den Output downstream-faehig (UI-Rendering, Datenbank) und erzwingt konsistente Formatierung
- Zeitplan: 1 Woche statt 3 Wochen. Wenn der Blended Prompt 85% erreicht, kannst Du mit Few-Shot-Beispielen nachsteuern. Wenn er 90%+ erreicht, ist Fine-Tuning unnoetig
- Erwarteter Impact: Praxis-Erfahrungswerte (nicht einzelne Studien) zeigen, dass Few-Shot + CoT zusammen 15-25 Prozentpunkte Verbesserung gegenueber Zero-Shot bringen können — variiert stark je nach Task
Haeufiger Fehler: Direkt zu Fine-Tuning springen, ohne Prompting auszureizen. Das kostet Wochen und Tausende Euro — und der Fine-Tuned-Output ist weniger flexibel als ein gut designter Prompt.
Reflect
Abschnitt betitelt „Reflect“- Der Prompt ist die Produktspezifikation. Wer den Prompt nicht versteht, versteht nicht, was das AI-Feature tut. PMs müssen Prompt-Design besitzen — nicht delegieren.
- Starte immer bei Zero-Shot und eskaliere nur bei messbaren Fehlern. Jede Stufe kostet mehr Tokens und Komplexität.
- Blended Prompting (Few-Shot + Role + CoT + Structured Output) ist der aktuelle Production-Standard — nicht eine einzelne Technik isoliert.
- Prompts brauchen Versionierung und Monitoring. Ein Prompt, der auf GPT-4 funktioniert, kann auf GPT-5 versagen.
Quellen: DAIR.AI Prompt Engineering Guide, Lakera Prompt Engineering Guide (2026), IBM RAG vs Fine-Tuning vs Prompt Engineering, CodeSignal Prompt Engineering Best Practices (2025), K2View Prompt Engineering Techniques (2026)