Zum Inhalt springen
EN DE

Cost/Quality Tradeoffs

Euer AI-Feature laeuft seit zwei Monaten. Die Nutzung steigt — aber die API-Rechnung auch. Letzten Monat: 14.000 Euro. Prognose für nächsten Monat: 21.000 Euro. Euer CFO fragt: “Jede andere Software-Funktion kostet uns praktisch nichts pro Nutzer-Interaktion. Warum kostet AI so viel?”

Die Antwort: AI-Features haben Grenzkosten pro Nutzung. Jeder API-Call kostet Geld. Das ist fundamental anders als traditionelle SaaS, wo die marginalen Kosten pro Nutzer-Interaktion nahe null liegen. Diese “AI-Tax” verändert Unit Economics, Pricing und Margenberechnungen — und PMs müssen sie vom ersten Tag an verstehen.

Der fundamentale Kostentreiber: Alles bei LLMs wird in Tokens gemessen. Pricing, Budgetierung und Optimierung drehen sich um Token-Verbrauch.

Wichtige Preisdynamiken (2026):

  • Output-Tokens kosten 2-5x mehr als Input-Tokens bei allen grossen Anbietern (Generierung braucht mehr Compute als Input-Verarbeitung)
  • Gecachte Input-Tokens kosten 0,1x des Basispreises (Anthropic) oder sind gratis (einige Anbieter)
  • Reasoning-Tokens (internes Chain-of-Thought bei o-Serie-Modellen) werden als Output-Tokens abgerechnet, sind aber für den Nutzer unsichtbar — ein versteckter Kostenmultiplikator

LLMflation — der Preistrend: Laut a16z-Research (a16z “LLMflation” Analyse, 2024 — basierend auf Token-Preisen der grossen Anbieter 2023-2024. Der Trend haelt an, variiert aber je nach Provider und Modellklasse.) sind LLM-Inferenzkosten um ca. 10x pro Jahr gefallen:

  • GPT-4-aequivalente Performance: $20/1M Tokens (Ende 2022) auf $0,40/1M Tokens (2025)
  • PM-Implikation: Features, die heute unwirtschaftlich sind, können in 6-12 Monaten tragfaehig sein

Beispiel 1: AI-Kundensupport-Bot

  • 100.000 Gespraeche/Monat, durchschnittlich 2.000 Input-Tokens + 500 Output-Tokens
  • Mit Claude Sonnet 4.6: Input $600 + Output $750 = $1.350/Monat
  • Mit Gemini 2.5 Flash: Input $30 + Output $30 = $60/Monat
  • Faktor 22,5x für das Premium-Modell

Beispiel 2: AI-Suche (RAG)

  • 500.000 Anfragen/Monat, je 500 Token Query + 2.000 Token Kontext + 300 Token Antwort
  • Mit Gemini 2.5 Flash: Input $187 + Output $90 + Embedding $5 + Vector DB $200 = ca. $483/Monat

1. Model Routing (groesster Hebel): Anfragen an das guenstigste Modell routen, das sie bewaeltigen kann. 70-80% an den Fast/Cheap-Tier, Rest an Frontier. Ersparnis: 5-10x.

2. Prompt Caching: Statische Prompt-Teile (System Prompts, Few-Shot-Beispiele) cachen. Anthropic: Gecachte Reads kosten 0,1x. Bis zu 73% Kostenreduktion bei repetitiven Workloads (Redis LangCache Benchmark).

3. Output-Laenge kontrollieren: max_tokens auf das Minimum setzen. Structured Output (JSON) statt wortreicher Prosa. Output-Tokens kosten 2-5x mehr als Input — jeder unnoetige Output-Token ist teuer.

4. Batching: Mehrere Anfragen in Batch-API-Calls buendeln (OpenAI und Anthropic). Typisch 50% Kostenreduktion für Non-Realtime-Workloads. Trade-off: hoehere Latenz.

5. Token-Reduktion: Prompts komprimieren, Konversationshistorie zusammenfassen statt vollständig senden, Embeddings für Retrieval statt alles in den Context stopfen.

6. Self-Hosting Open Models: Break-Even vs. API typisch bei 40+ GPU-Stunden/Woche Dauerauslastung. Midjourney-Fallstudie: Von NVIDIA A100/H100 auf TPU v6e migriert, monatliche Inferenz von $2,1M auf unter $700K reduziert. Nur bei signifikantem Volumen mit dedizierter MLOps-Kapazitaet sinnvoll.

PositionBerechnungBeispiel
Umsatz pro Nutzer/MonatSubscription oder Usage Fee$20/Nutzer/Monat
AI-Kosten pro Nutzer/Monat(Avg. Anfragen x Tokens pro Anfrage x Preis pro Token)$0,50-$5,00/Nutzer/Monat
AI-Kosten als % vom UmsatzAI-Kosten / Umsatz2,5-25%

Gesunde Benchmarks: AI-Inferenzkosten sollten unter 10% des Feature-Umsatzbeitrags liegen. Über 20%: optimieren (Routing, Caching) oder Preismodell anpassen. Bei Freemium: Free-Tier-AI-Kosten müssen durch Conversion zu Paid gedeckt sein.

QualitaetslevelTypischer AnsatzUse Case
”Gut genug” (80%)Kleines Modell, Zero-ShotAutocomplete, Klassifikation, einfache Extraktion
”Hohe Qualität” (90%)Mid-Tier-Modell, Few-Shot + RAGKundensupport, Dokumentenanalyse
”Nahezu perfekt” (95%+)Frontier-Modell, CoT + RAG + Human ReviewMedizin, Recht, Finanzen — High Stakes

Die Kurve der abnehmenden Ertraege: Von 80% auf 90% Qualität kostet ca. 3x. Von 90% auf 95% ca. 10x. Von 95% auf 99% ca. 50x. PMs müssen “gut genug” definieren, bevor Engineering anfaengt zu optimieren.

Kostenoptimierung — in dieser Reihenfolge (hoechster ROI zuerst):

PrioritätHebelErwartete ErsparnisAufwand
1Model Routing5-10xMittel (Routing-Logik + Testing)
2Prompt Caching50-90% auf gecachte TeileNiedrig (Konfiguration)
3Output-Laenge kontrollieren20-50%Niedrig (max_tokens + Structured Output)
4Batching50% für Non-RealtimeNiedrig (API-Umstellung)
5Prompt-Kompression10-30%Niedrig (Prompt-Optimierung)
6Self-HostingVariabel, nur bei VolumenHoch (Infrastruktur + MLOps)

AI-Feature P&L-Check:

  • AI-Kosten unter 10% des Feature-Umsatzes: Gesund
  • AI-Kosten 10-20%: Optimierungsbedarf, noch tragfaehig
  • AI-Kosten über 20%: Sofort optimieren oder Pricing anpassen

Du bist PM bei einem Content-Marketing SaaS (B2B, 3.000 Kunden). Euer AI-Feature: Automatische Blog-Post-Generierung. Aktuell nutzt Ihr Claude Sonnet 4.6 für alle Anfragen.

Die Situation:

  • 60.000 Blog-Posts/Monat generiert
  • Durchschnittlich 1.500 Input-Tokens (Briefing) + 3.000 Output-Tokens (Post)
  • Aktuelle Monatskosten: Input (90M Tokens x $3/1M) = $270 + Output (180M Tokens x $15/1M) = $2.700 = $2.970/Monat
  • Subscription-Preis: $49/Nutzer/Monat, durchschnittlich 20 Posts pro Nutzer
  • 45% der generierten Posts sind “Quick Drafts” (Bullet-Point-Zusammenfassungen, 200 Woerter)
  • 40% sind “Standard Posts” (800 Woerter, SEO-optimiert)
  • 15% sind “Deep Dives” (2.000+ Woerter, research-intensiv)

Optionen:

  1. Status Quo beibehalten: $2.970/Monat, gleiches Modell für alles
  2. Model Routing: Quick Drafts auf Gemini 2.5 Flash, Standard auf Claude Sonnet, Deep Dives auf Claude Sonnet mit Extended Thinking
  3. Model Routing + Caching: Wie Option 2, plus Prompt Caching für System Prompts und wiederkehrende Briefing-Templates
Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 3 — Model Routing + Caching.

Warum:

  • Quick Drafts auf Flash (45% des Volumens): 27.000 Posts x (1.500 x $0,15/1M + 800 x $0,60/1M) = ca. $19/Monat. Vs. aktuell ca. $1.335 für denselben Anteil mit Sonnet. Qualität für Bullet Points ist bei Flash ausreichend
  • Standard auf Sonnet (40%): 24.000 Posts bleiben auf Sonnet = ca. $1.188/Monat. Hier ist Sonnet-Qualität gerechtfertigt
  • Deep Dives mit Extended Thinking (15%): 9.000 Posts x hoehere Kosten = ca. $670/Monat. Bessere Qualität für Premium-Content
  • Gesamtkosten Option 2: ca. $1.877/Monat — 37% Ersparnis
  • Prompt Caching on top: System Prompts (SEO-Regeln, Stilguide, Brand Voice) werden bei jeder Anfrage mitgesendet. Caching reduziert diese Kosten um 90%. Bei 60.000 Anfragen mit 800-Token-System-Prompts spart das nochmal ca. $200/Monat
  • Gesamtkosten Option 3: ca. $1.650/Monat — 44% Ersparnis vs. Status Quo
  • Unit Economics Check: $1.650 / 3.000 Kunden = $0,55/Kunde/Monat. Bei $49 Subscription = 1,1% des Umsatzes. Gesund

Haeufiger Fehler: Auf LLMflation warten, ohne aktiv zu optimieren. Kosten sinken zwar jaehrlich um ca. 10x, aber Nutzungsvolumen steigt typischerweise schneller. Ohne aktive Optimierung wachsen Kosten trotz fallender Preise.

  • AI-Features haben Grenzkosten pro Nutzung — das unterscheidet sie fundamental von traditioneller Software. Diese “AI-Tax” muss von Tag 1 in die Unit Economics einfliessen, nicht erst wenn die Rechnung kommt.
  • Model Routing ist der größte Einzelhebel. 70-80% der Anfragen brauchen kein Frontier-Modell. 5-10x Ersparnis sind realistisch, ohne dass Nutzer einen Qualitaetsverlust bemerken.
  • Definiere “gut genug” bevor Du optimierst. Von 80% auf 90% Qualität kostet 3x, von 90% auf 95% kostet 10x. Die PM-Aufgabe ist, die Grenze zu definieren — nicht, maximale Qualität zu fordern.
  • LLMflation (10x jaehrlicher Preisverfall) ist real, aber kein Grund, nicht zu optimieren. Nutzung waechst typischerweise schneller als Preise fallen.

Quellen: a16z LLMflation — LLM Inference Cost Is Going Down Fast, Introl Cost Per Token Analysis, Introl Inference Unit Economics, Redis LLM Token Optimization (2026), Silicon Data LLM Cost Per Token Guide (2026)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn