Cost/Quality Tradeoffs

Context

Euer AI-Feature laeuft seit zwei Monaten. Die Nutzung steigt — aber die API-Rechnung auch. Letzten Monat: 14.000 Euro. Prognose für nächsten Monat: 21.000 Euro. Euer CFO fragt: “Jede andere Software-Funktion kostet uns praktisch nichts pro Nutzer-Interaktion. Warum kostet AI so viel?”

Die Antwort: AI-Features haben Grenzkosten pro Nutzung. Jeder API-Call kostet Geld. Das ist fundamental anders als traditionelle SaaS, wo die marginalen Kosten pro Nutzer-Interaktion nahe null liegen. Diese “AI-Tax” verändert Unit Economics, Pricing und Margenberechnungen — und PMs müssen sie vom ersten Tag an verstehen.

Concept

Token Economics

Der fundamentale Kostentreiber: Alles bei LLMs wird in Tokens gemessen. Pricing, Budgetierung und Optimierung drehen sich um Token-Verbrauch.

Wichtige Preisdynamiken (2026):

Output-Tokens kosten 2-5x mehr als Input-Tokens bei allen grossen Anbietern (Generierung braucht mehr Compute als Input-Verarbeitung)
Gecachte Input-Tokens kosten 0,1x des Basispreises (Anthropic) oder sind gratis (einige Anbieter)
Reasoning-Tokens (internes Chain-of-Thought bei o-Serie-Modellen) werden als Output-Tokens abgerechnet, sind aber für den Nutzer unsichtbar — ein versteckter Kostenmultiplikator

LLMflation — der Preistrend: Laut a16z-Research (a16z “LLMflation” Analyse, 2024 — basierend auf Token-Preisen der grossen Anbieter 2023-2024. Der Trend haelt an, variiert aber je nach Provider und Modellklasse.) sind LLM-Inferenzkosten um ca. 10x pro Jahr gefallen:

GPT-4-aequivalente Performance: $20/1M Tokens (Ende 2022) auf $0,40/1M Tokens (2025)
PM-Implikation: Features, die heute unwirtschaftlich sind, können in 6-12 Monaten tragfaehig sein

Echte Kostenrechnungen

Beispiel 1: AI-Kundensupport-Bot

100.000 Gespraeche/Monat, durchschnittlich 2.000 Input-Tokens + 500 Output-Tokens
Mit Claude Sonnet 4.6: Input $600 + Output $750 = $1.350/Monat
Mit Gemini 2.5 Flash: Input $30 + Output $30 = $60/Monat
Faktor 22,5x für das Premium-Modell

Beispiel 2: AI-Suche (RAG)

500.000 Anfragen/Monat, je 500 Token Query + 2.000 Token Kontext + 300 Token Antwort
Mit Gemini 2.5 Flash: Input $187 + Output $90 + Embedding $5 + Vector DB $200 = ca. $483/Monat

Die sechs Optimierungshebel

1. Model Routing (groesster Hebel): Anfragen an das guenstigste Modell routen, das sie bewaeltigen kann. 70-80% an den Fast/Cheap-Tier, Rest an Frontier. Ersparnis: 5-10x.

2. Prompt Caching: Statische Prompt-Teile (System Prompts, Few-Shot-Beispiele) cachen. Anthropic: Gecachte Reads kosten 0,1x. Bis zu 73% Kostenreduktion bei repetitiven Workloads (Redis LangCache Benchmark).

3. Output-Laenge kontrollieren: max_tokens auf das Minimum setzen. Structured Output (JSON) statt wortreicher Prosa. Output-Tokens kosten 2-5x mehr als Input — jeder unnoetige Output-Token ist teuer.

4. Batching: Mehrere Anfragen in Batch-API-Calls buendeln (OpenAI und Anthropic). Typisch 50% Kostenreduktion für Non-Realtime-Workloads. Trade-off: hoehere Latenz.

5. Token-Reduktion: Prompts komprimieren, Konversationshistorie zusammenfassen statt vollständig senden, Embeddings für Retrieval statt alles in den Context stopfen.

6. Self-Hosting Open Models: Break-Even vs. API typisch bei 40+ GPU-Stunden/Woche Dauerauslastung. Midjourney-Fallstudie: Von NVIDIA A100/H100 auf TPU v6e migriert, monatliche Inferenz von $2,1M auf unter $700K reduziert. Nur bei signifikantem Volumen mit dedizierter MLOps-Kapazitaet sinnvoll.

Unit Economics für AI-Features

Position	Berechnung	Beispiel
Umsatz pro Nutzer/Monat	Subscription oder Usage Fee	$20/Nutzer/Monat
AI-Kosten pro Nutzer/Monat	(Avg. Anfragen x Tokens pro Anfrage x Preis pro Token)	$0,50-$5,00/Nutzer/Monat
AI-Kosten als % vom Umsatz	AI-Kosten / Umsatz	2,5-25%

Gesunde Benchmarks: AI-Inferenzkosten sollten unter 10% des Feature-Umsatzbeitrags liegen. Über 20%: optimieren (Routing, Caching) oder Preismodell anpassen. Bei Freemium: Free-Tier-AI-Kosten müssen durch Conversion zu Paid gedeckt sein.

Die Qualitaets-Kosten-Grenze

Qualitaetslevel	Typischer Ansatz	Use Case
”Gut genug” (80%)	Kleines Modell, Zero-Shot	Autocomplete, Klassifikation, einfache Extraktion
”Hohe Qualität” (90%)	Mid-Tier-Modell, Few-Shot + RAG	Kundensupport, Dokumentenanalyse
”Nahezu perfekt” (95%+)	Frontier-Modell, CoT + RAG + Human Review	Medizin, Recht, Finanzen — High Stakes

Die Kurve der abnehmenden Ertraege: Von 80% auf 90% Qualität kostet ca. 3x. Von 90% auf 95% ca. 10x. Von 95% auf 99% ca. 50x. PMs müssen “gut genug” definieren, bevor Engineering anfaengt zu optimieren.

Framework

Kostenoptimierung — in dieser Reihenfolge (hoechster ROI zuerst):

Priorität	Hebel	Erwartete Ersparnis	Aufwand
1	Model Routing	5-10x	Mittel (Routing-Logik + Testing)
2	Prompt Caching	50-90% auf gecachte Teile	Niedrig (Konfiguration)
3	Output-Laenge kontrollieren	20-50%	Niedrig (max_tokens + Structured Output)
4	Batching	50% für Non-Realtime	Niedrig (API-Umstellung)
5	Prompt-Kompression	10-30%	Niedrig (Prompt-Optimierung)
6	Self-Hosting	Variabel, nur bei Volumen	Hoch (Infrastruktur + MLOps)

AI-Feature P&L-Check:

AI-Kosten unter 10% des Feature-Umsatzes: Gesund
AI-Kosten 10-20%: Optimierungsbedarf, noch tragfaehig
AI-Kosten über 20%: Sofort optimieren oder Pricing anpassen

Scenario

Du bist PM bei einem Content-Marketing SaaS (B2B, 3.000 Kunden). Euer AI-Feature: Automatische Blog-Post-Generierung. Aktuell nutzt Ihr Claude Sonnet 4.6 für alle Anfragen.

Die Situation:

60.000 Blog-Posts/Monat generiert
Durchschnittlich 1.500 Input-Tokens (Briefing) + 3.000 Output-Tokens (Post)
Aktuelle Monatskosten: Input (90M Tokens x $3/1M) = $270 + Output (180M Tokens x $15/1M) = $2.700 = $2.970/Monat
Subscription-Preis: $49/Nutzer/Monat, durchschnittlich 20 Posts pro Nutzer
45% der generierten Posts sind “Quick Drafts” (Bullet-Point-Zusammenfassungen, 200 Woerter)
40% sind “Standard Posts” (800 Woerter, SEO-optimiert)
15% sind “Deep Dives” (2.000+ Woerter, research-intensiv)

Optionen:

Status Quo beibehalten: $2.970/Monat, gleiches Modell für alles
Model Routing: Quick Drafts auf Gemini 2.5 Flash, Standard auf Claude Sonnet, Deep Dives auf Claude Sonnet mit Extended Thinking
Model Routing + Caching: Wie Option 2, plus Prompt Caching für System Prompts und wiederkehrende Briefing-Templates

Decide

Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 3 — Model Routing + Caching.

Warum:

Quick Drafts auf Flash (45% des Volumens): 27.000 Posts x (1.500 x $0,15/1M + 800 x $0,60/1M) = ca. $19/Monat. Vs. aktuell ca. $1.335 für denselben Anteil mit Sonnet. Qualität für Bullet Points ist bei Flash ausreichend
Standard auf Sonnet (40%): 24.000 Posts bleiben auf Sonnet = ca. $1.188/Monat. Hier ist Sonnet-Qualität gerechtfertigt
Deep Dives mit Extended Thinking (15%): 9.000 Posts x hoehere Kosten = ca. $670/Monat. Bessere Qualität für Premium-Content
Gesamtkosten Option 2: ca. $1.877/Monat — 37% Ersparnis
Prompt Caching on top: System Prompts (SEO-Regeln, Stilguide, Brand Voice) werden bei jeder Anfrage mitgesendet. Caching reduziert diese Kosten um 90%. Bei 60.000 Anfragen mit 800-Token-System-Prompts spart das nochmal ca. $200/Monat
Gesamtkosten Option 3: ca. $1.650/Monat — 44% Ersparnis vs. Status Quo
Unit Economics Check: $1.650 / 3.000 Kunden = $0,55/Kunde/Monat. Bei $49 Subscription = 1,1% des Umsatzes. Gesund

Haeufiger Fehler: Auf LLMflation warten, ohne aktiv zu optimieren. Kosten sinken zwar jaehrlich um ca. 10x, aber Nutzungsvolumen steigt typischerweise schneller. Ohne aktive Optimierung wachsen Kosten trotz fallender Preise.

Reflect

AI-Features haben Grenzkosten pro Nutzung — das unterscheidet sie fundamental von traditioneller Software. Diese “AI-Tax” muss von Tag 1 in die Unit Economics einfliessen, nicht erst wenn die Rechnung kommt.
Model Routing ist der größte Einzelhebel. 70-80% der Anfragen brauchen kein Frontier-Modell. 5-10x Ersparnis sind realistisch, ohne dass Nutzer einen Qualitaetsverlust bemerken.
Definiere “gut genug” bevor Du optimierst. Von 80% auf 90% Qualität kostet 3x, von 90% auf 95% kostet 10x. Die PM-Aufgabe ist, die Grenze zu definieren — nicht, maximale Qualität zu fordern.
LLMflation (10x jaehrlicher Preisverfall) ist real, aber kein Grund, nicht zu optimieren. Nutzung waechst typischerweise schneller als Preise fallen.

Quellen: a16z LLMflation — LLM Inference Cost Is Going Down Fast, Introl Cost Per Token Analysis, Introl Inference Unit Economics, Redis LLM Token Optimization (2026), Silicon Data LLM Cost Per Token Guide (2026)