Zum Inhalt springen
EN DE

Prompt Engineering

Dein AI-Feature liefert inkonsistente Ergebnisse. Mal ist die Zusammenfassung perfekt, mal voellig daneben. Das Engineering-Team schlägt Fine-Tuning vor — drei Wochen Aufwand, 15.000 Euro Budget. Dein Tech Lead fragt: “Habt ihr den Prompt schon optimiert?”

Prompt Engineering ist der schnellste, guenstigste Hebel, um AI-Output-Qualität zu verbessern. Für PMs ist es mehr als ein technisches Detail: Der Prompt ist die Produktspezifikation. Er definiert Verhalten, Ton, Format und Grenzen Deines AI-Features. Wer den Prompt versteht, versteht das Produkt.

Nicht jede Aufgabe braucht die gleiche Technik. Die Kunst liegt darin, mit der einfachsten Methode zu starten und nur bei Bedarf zu eskalieren.

Zero-Shot: Nur die Aufgabe beschreiben, keine Beispiele. Funktioniert für gut verstandene Tasks wie Zusammenfassungen oder Uebersetzungen. Starte immer hier — minimale Tokens, schnellste Iteration.

Few-Shot: 1-5 Beispiele von gewuenschten Input-Output-Paaren mitgeben. Forschung zeigt starke Verbesserungen ab 1-2 Beispielen, mit abnehmenden Ertraegen ab 4-5. PM-Falle: 10+ Beispiele “zur Sicherheit” verschwenden Tokens und können das Modell verwirren.

Chain-of-Thought (CoT): Das Modell anweisen, Schritt für Schritt zu denken. Bringt laut der urspruenglichen Benchmark-Studie bis zu 19 Punkte Verbesserung bei komplexen Reasoning-Aufgaben (MMLU-Pro Benchmark). Aber Vorsicht: Bei Reasoning-Modellen (o-Serie, Claude Extended Thinking) ist explizites CoT redundant — sie machen es intern bereits.

System Prompts: Der unsichtbare Rahmen, der Rolle, Einschraenkungen und Verhalten definiert. System Prompts werden typischerweise gecacht (Anthropic berechnet 0,1x des Basispreises für gecachte Reads) — kosteneffizient bei wiederholter Nutzung.

Structured Output: JSON, XML oder YAML als Antwortformat erzwingen. Alle grossen Anbieter unterstuetzen das nativ. Unverzichtbar, wenn AI-Output in nachgelagerte Systeme fliesst (APIs, Datenbanken, UI-Rendering).

Self-Consistency: Denselben Prompt mehrfach ausführen, Mehrheitsantwort nehmen. Erhoeht Genauigkeit bei 3-5x Kosten — nur für High-Stakes-Entscheidungen.

Blended Prompting (aktuelles Best Practice): Few-Shot + Role Instruction + Format Constraints + CoT in einem Prompt kombiniert. Die meisten Production-Prompts nutzen diesen Ansatz.

Prompts sind keine geschuetzten Befehle — sie sind angreifbar. PMs müssen die wichtigsten Risiken kennen:

  • Prompt Injection: Nutzer-Input ueberschreibt die System-Anweisung (“Ignoriere alle vorherigen Anweisungen und…”). Verteidigung: Input Sanitization, klar getrennte System-/User-Prompts, Output-Validierung
  • Jailbreaking: Kreative Umgehung von Sicherheits-Guardrails. Kein Prompt allein schuetzt dagegen — mehrere Defense-Layer noetig (Input-Filter, Output-Filter, Monitoring)
  • Data Exfiltration: Das Modell gibt Informationen aus dem System Prompt oder Kontext preis, die nicht für den Nutzer bestimmt sind

PM-Entscheidung: Welche Aktionen darf das AI-Feature ausführen? Je mehr Autonomie (E-Mails senden, Daten ändern), desto kritischer wird Prompt Security. Bei High-Stakes-Features gehört Security-Testing (Red Teaming, s. Kapitel 5) in den Launch-Prozess.

  1. “Laengere Prompts = bessere Ergebnisse.” Falsch. Uebermaessig lange Prompts verduennen das Signal. Praezise Anweisungen schlagen langatmige.
  2. “Prompt Engineering ist eine Engineering-Aufgabe.” Teilweise falsch. Der Prompt definiert Produktverhalten — PMs sollten Prompt-Design besitzen (Verhalten, Constraints, Ton), Engineers die Integration.
  3. “Ein perfekter Prompt funktioniert ewig.” Falsch. Model-Updates ändern Verhalten. Prompts brauchen Versionierung und Monitoring wie jedes Feature.

Die Complexity-Stakes-Matrix:

Einfache Aufgabe (Klassifikation, Extraktion)Komplexe Aufgabe (Reasoning, Generierung)
Niedriges RisikoZero-Shot, Temperatur 0-0.2CoT, Temperatur 0.3-0.7
Hohes RisikoFew-Shot + ValidierungslayerCoT + Self-Consistency + Human Review

Eskalationspfad: Zero-Shot, dann Few-Shot, dann CoT, dann Prompt Chaining, dann Self-Consistency. Stoppe bei der ersten Stufe, die Deine Qualitaetsanforderungen erfuellt.

TechnikToken-OverheadLatenz-ImpactWann einsetzen
Zero-ShotMinimalNiedrigsteImmer zuerst
Few-Shot (3 Beispiele)+200-500 TokensNiedrigBei spezifischen Zero-Shot-Fehlern
Chain-of-Thought+100-2000 Tokens OutputMittelKomplexe Reasoning-Aufgaben
System Prompt (gecacht)Erster Call: volle Kosten; danach: 0.1xKeiner nach dem erstenImmer für Product Features
Self-Consistency (5 Runs)5x Gesamtkosten5x LatenzNur bei High-Stakes-Entscheidungen

Du bist PM bei einem Legal-Tech SaaS (B2B, 2.000 Kanzleien). Euer naechstes Feature: automatische Vertragsklausel-Analyse. Der erste Prototyp nutzt Zero-Shot und liefert bei 60% der Klauseln korrekte Risikoeinschaetzungen.

Die Situation:

  • Zielgenauigkeit: 90%+ (juristische Nutzung erfordert hohe Praezision)
  • Budget: 8.000 Euro für die erste Iteration
  • Volumen: 25.000 Klauseln/Monat
  • Zeitdruck: Feature-Launch in 4 Wochen
  • Engineering-Team schlägt Fine-Tuning vor (3 Wochen, 15.000 Euro)

Optionen:

  1. Fine-Tuning: 3 Wochen Entwicklung, 15.000 Euro, 500+ gelabelte Beispiele noetig
  2. Few-Shot + CoT: 3-5 Beispiele von Experten-Analysen als Vorlage, Schritt-für-Schritt-Reasoning erzwingen. 2-3 Tage Arbeit, unter 500 Euro Prompt-Kosten
  3. Blended Prompt: System Prompt (Rolle: Senior-Jurist) + 3 Few-Shot-Beispiele + CoT + Structured Output (JSON mit Risikolevel und Begruendung). 1 Woche inkl. Testing
Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 3 — Blended Prompt.

Warum:

  • Eskalationspfad einhalten: Zero-Shot liefert 60%. Bevor Du Fine-Tuning anfaengst, musst Du die Prompt-Optionen ausschoepfen. Das ist nicht optional, sondern Best Practice
  • Kosten-Risiko: Fine-Tuning für 15.000 Euro bei einem Feature, das mit besserem Prompting möglicherweise 90%+ erreicht, ist voreilig. Die Praxis-Erfahrung vieler Teams zeigt: Fine-Tuning eines schwachen Modells verliert oft gegen gutes Prompting eines starken Modells
  • Structured Output ist entscheidend: JSON mit Risikolevel + Begruendung macht den Output downstream-faehig (UI-Rendering, Datenbank) und erzwingt konsistente Formatierung
  • Zeitplan: 1 Woche statt 3 Wochen. Wenn der Blended Prompt 85% erreicht, kannst Du mit Few-Shot-Beispielen nachsteuern. Wenn er 90%+ erreicht, ist Fine-Tuning unnoetig
  • Erwarteter Impact: Praxis-Erfahrungswerte (nicht einzelne Studien) zeigen, dass Few-Shot + CoT zusammen 15-25 Prozentpunkte Verbesserung gegenueber Zero-Shot bringen können — variiert stark je nach Task

Haeufiger Fehler: Direkt zu Fine-Tuning springen, ohne Prompting auszureizen. Das kostet Wochen und Tausende Euro — und der Fine-Tuned-Output ist weniger flexibel als ein gut designter Prompt.

  • Der Prompt ist die Produktspezifikation. Wer den Prompt nicht versteht, versteht nicht, was das AI-Feature tut. PMs müssen Prompt-Design besitzen — nicht delegieren.
  • Starte immer bei Zero-Shot und eskaliere nur bei messbaren Fehlern. Jede Stufe kostet mehr Tokens und Komplexität.
  • Blended Prompting (Few-Shot + Role + CoT + Structured Output) ist der aktuelle Production-Standard — nicht eine einzelne Technik isoliert.
  • Prompts brauchen Versionierung und Monitoring. Ein Prompt, der auf GPT-4 funktioniert, kann auf GPT-5 versagen.

Quellen: DAIR.AI Prompt Engineering Guide, Lakera Prompt Engineering Guide (2026), IBM RAG vs Fine-Tuning vs Prompt Engineering, CodeSignal Prompt Engineering Best Practices (2025), K2View Prompt Engineering Techniques (2026)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn