Prompt Engineering

Context

Dein AI-Feature liefert inkonsistente Ergebnisse. Mal ist die Zusammenfassung perfekt, mal voellig daneben. Das Engineering-Team schlägt Fine-Tuning vor — drei Wochen Aufwand, 15.000 Euro Budget. Dein Tech Lead fragt: “Habt ihr den Prompt schon optimiert?”

Prompt Engineering ist der schnellste, guenstigste Hebel, um AI-Output-Qualität zu verbessern. Für PMs ist es mehr als ein technisches Detail: Der Prompt ist die Produktspezifikation. Er definiert Verhalten, Ton, Format und Grenzen Deines AI-Features. Wer den Prompt versteht, versteht das Produkt.

Concept

Die Prompting-Hierarchie

Nicht jede Aufgabe braucht die gleiche Technik. Die Kunst liegt darin, mit der einfachsten Methode zu starten und nur bei Bedarf zu eskalieren.

Zero-Shot: Nur die Aufgabe beschreiben, keine Beispiele. Funktioniert für gut verstandene Tasks wie Zusammenfassungen oder Uebersetzungen. Starte immer hier — minimale Tokens, schnellste Iteration.

Few-Shot: 1-5 Beispiele von gewuenschten Input-Output-Paaren mitgeben. Forschung zeigt starke Verbesserungen ab 1-2 Beispielen, mit abnehmenden Ertraegen ab 4-5. PM-Falle: 10+ Beispiele “zur Sicherheit” verschwenden Tokens und können das Modell verwirren.

Chain-of-Thought (CoT): Das Modell anweisen, Schritt für Schritt zu denken. Bringt laut der urspruenglichen Benchmark-Studie bis zu 19 Punkte Verbesserung bei komplexen Reasoning-Aufgaben (MMLU-Pro Benchmark). Aber Vorsicht: Bei Reasoning-Modellen (o-Serie, Claude Extended Thinking) ist explizites CoT redundant — sie machen es intern bereits.

System Prompts: Der unsichtbare Rahmen, der Rolle, Einschraenkungen und Verhalten definiert. System Prompts werden typischerweise gecacht (Anthropic berechnet 0,1x des Basispreises für gecachte Reads) — kosteneffizient bei wiederholter Nutzung.

Fortgeschrittene Techniken

Structured Output: JSON, XML oder YAML als Antwortformat erzwingen. Alle grossen Anbieter unterstuetzen das nativ. Unverzichtbar, wenn AI-Output in nachgelagerte Systeme fliesst (APIs, Datenbanken, UI-Rendering).

Self-Consistency: Denselben Prompt mehrfach ausführen, Mehrheitsantwort nehmen. Erhoeht Genauigkeit bei 3-5x Kosten — nur für High-Stakes-Entscheidungen.

Blended Prompting (aktuelles Best Practice): Few-Shot + Role Instruction + Format Constraints + CoT in einem Prompt kombiniert. Die meisten Production-Prompts nutzen diesen Ansatz.

Prompt Security — was PMs wissen müssen

Prompts sind keine geschuetzten Befehle — sie sind angreifbar. PMs müssen die wichtigsten Risiken kennen:

Prompt Injection: Nutzer-Input ueberschreibt die System-Anweisung (“Ignoriere alle vorherigen Anweisungen und…”). Verteidigung: Input Sanitization, klar getrennte System-/User-Prompts, Output-Validierung
Jailbreaking: Kreative Umgehung von Sicherheits-Guardrails. Kein Prompt allein schuetzt dagegen — mehrere Defense-Layer noetig (Input-Filter, Output-Filter, Monitoring)
Data Exfiltration: Das Modell gibt Informationen aus dem System Prompt oder Kontext preis, die nicht für den Nutzer bestimmt sind

PM-Entscheidung: Welche Aktionen darf das AI-Feature ausführen? Je mehr Autonomie (E-Mails senden, Daten ändern), desto kritischer wird Prompt Security. Bei High-Stakes-Features gehört Security-Testing (Red Teaming, s. Kapitel 5) in den Launch-Prozess.

Was PMs falsch verstehen

“Laengere Prompts = bessere Ergebnisse.” Falsch. Uebermaessig lange Prompts verduennen das Signal. Praezise Anweisungen schlagen langatmige.
“Prompt Engineering ist eine Engineering-Aufgabe.” Teilweise falsch. Der Prompt definiert Produktverhalten — PMs sollten Prompt-Design besitzen (Verhalten, Constraints, Ton), Engineers die Integration.
“Ein perfekter Prompt funktioniert ewig.” Falsch. Model-Updates ändern Verhalten. Prompts brauchen Versionierung und Monitoring wie jedes Feature.

Framework

Die Complexity-Stakes-Matrix:

	Einfache Aufgabe (Klassifikation, Extraktion)	Komplexe Aufgabe (Reasoning, Generierung)
Niedriges Risiko	Zero-Shot, Temperatur 0-0.2	CoT, Temperatur 0.3-0.7
Hohes Risiko	Few-Shot + Validierungslayer	CoT + Self-Consistency + Human Review

Eskalationspfad: Zero-Shot, dann Few-Shot, dann CoT, dann Prompt Chaining, dann Self-Consistency. Stoppe bei der ersten Stufe, die Deine Qualitaetsanforderungen erfuellt.

Technik	Token-Overhead	Latenz-Impact	Wann einsetzen
Zero-Shot	Minimal	Niedrigste	Immer zuerst
Few-Shot (3 Beispiele)	+200-500 Tokens	Niedrig	Bei spezifischen Zero-Shot-Fehlern
Chain-of-Thought	+100-2000 Tokens Output	Mittel	Komplexe Reasoning-Aufgaben
System Prompt (gecacht)	Erster Call: volle Kosten; danach: 0.1x	Keiner nach dem ersten	Immer für Product Features
Self-Consistency (5 Runs)	5x Gesamtkosten	5x Latenz	Nur bei High-Stakes-Entscheidungen

Scenario

Du bist PM bei einem Legal-Tech SaaS (B2B, 2.000 Kanzleien). Euer naechstes Feature: automatische Vertragsklausel-Analyse. Der erste Prototyp nutzt Zero-Shot und liefert bei 60% der Klauseln korrekte Risikoeinschaetzungen.

Die Situation:

Zielgenauigkeit: 90%+ (juristische Nutzung erfordert hohe Praezision)
Budget: 8.000 Euro für die erste Iteration
Volumen: 25.000 Klauseln/Monat
Zeitdruck: Feature-Launch in 4 Wochen
Engineering-Team schlägt Fine-Tuning vor (3 Wochen, 15.000 Euro)

Optionen:

Fine-Tuning: 3 Wochen Entwicklung, 15.000 Euro, 500+ gelabelte Beispiele noetig
Few-Shot + CoT: 3-5 Beispiele von Experten-Analysen als Vorlage, Schritt-für-Schritt-Reasoning erzwingen. 2-3 Tage Arbeit, unter 500 Euro Prompt-Kosten
Blended Prompt: System Prompt (Rolle: Senior-Jurist) + 3 Few-Shot-Beispiele + CoT + Structured Output (JSON mit Risikolevel und Begruendung). 1 Woche inkl. Testing

Decide

Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 3 — Blended Prompt.

Warum:

Eskalationspfad einhalten: Zero-Shot liefert 60%. Bevor Du Fine-Tuning anfaengst, musst Du die Prompt-Optionen ausschoepfen. Das ist nicht optional, sondern Best Practice
Kosten-Risiko: Fine-Tuning für 15.000 Euro bei einem Feature, das mit besserem Prompting möglicherweise 90%+ erreicht, ist voreilig. Die Praxis-Erfahrung vieler Teams zeigt: Fine-Tuning eines schwachen Modells verliert oft gegen gutes Prompting eines starken Modells
Structured Output ist entscheidend: JSON mit Risikolevel + Begruendung macht den Output downstream-faehig (UI-Rendering, Datenbank) und erzwingt konsistente Formatierung
Zeitplan: 1 Woche statt 3 Wochen. Wenn der Blended Prompt 85% erreicht, kannst Du mit Few-Shot-Beispielen nachsteuern. Wenn er 90%+ erreicht, ist Fine-Tuning unnoetig
Erwarteter Impact: Praxis-Erfahrungswerte (nicht einzelne Studien) zeigen, dass Few-Shot + CoT zusammen 15-25 Prozentpunkte Verbesserung gegenueber Zero-Shot bringen können — variiert stark je nach Task

Haeufiger Fehler: Direkt zu Fine-Tuning springen, ohne Prompting auszureizen. Das kostet Wochen und Tausende Euro — und der Fine-Tuned-Output ist weniger flexibel als ein gut designter Prompt.

Reflect

Der Prompt ist die Produktspezifikation. Wer den Prompt nicht versteht, versteht nicht, was das AI-Feature tut. PMs müssen Prompt-Design besitzen — nicht delegieren.
Starte immer bei Zero-Shot und eskaliere nur bei messbaren Fehlern. Jede Stufe kostet mehr Tokens und Komplexität.
Blended Prompting (Few-Shot + Role + CoT + Structured Output) ist der aktuelle Production-Standard — nicht eine einzelne Technik isoliert.
Prompts brauchen Versionierung und Monitoring. Ein Prompt, der auf GPT-4 funktioniert, kann auf GPT-5 versagen.

Quellen: DAIR.AI Prompt Engineering Guide, Lakera Prompt Engineering Guide (2026), IBM RAG vs Fine-Tuning vs Prompt Engineering, CodeSignal Prompt Engineering Best Practices (2025), K2View Prompt Engineering Techniques (2026)