Zum Inhalt springen
EN DE

Model Selection

Euer Head of Engineering hat eine Tabelle mit 15 LLMs erstellt, sortiert nach MMLU-Score. “Wir nehmen das beste Modell” ist seine Empfehlung. Das Problem: Das #1-Modell kostet 10x so viel wie #5 — und für Euren Use Case (Ticket-Klassifikation) ist der Qualitaetsunterschied marginal. Dein CFO wird die API-Rechnung im zweiten Monat sehen und fragen, warum Ihr das teuerste Modell für eine Aufgabe nutzt, die ein guenstigeres genauso gut erledigt.

Model Selection ist keine einmalige technische Entscheidung. Es ist eine Produktentscheidung, die Qualität, Kosten, Latenz und Compliance-Anforderungen balanciert — und die sich quartalsmaessig ändern kann, weil der Modellmarkt sich so schnell bewegt.

Stand: Maerz 2026. Modellpreise ändern sich quartalsmaessig. Die Prinzipien (Multi-Model Routing, eigene Evals, Design für Wechsel) bleiben stabil — konkrete Preise nicht.

Der Markt hat sich um wenige grosse Anbieter konsolidiert:

AnbieterFrontier-ModellStaerkeInput $/1M TokensOutput $/1M Tokens
OpenAIGPT-5.2 / GPT-5.4Allround, starkes Tooling-Ecosystem$1,75-$3,00$7,00-$14,00
AnthropicClaude Opus 4.6Writing, Safety, Agentic Coding, 200K Context$5,00$25,00
AnthropicClaude Sonnet 4.6Bestes Performance-zu-Kosten-Verhaeltnis$3,00$15,00
GoogleGemini 3 ProMultimodal, 1M Context, Caching$1,25$10,00
GoogleGemini 2.5 FlashSpeed-optimiert, kosteneffizient$0,15$0,60
MetaLlama 4 Scout (Open)Open Source, 10M Context, schnell$0,11$0,34
DeepSeekDeepSeek-V3 / R1Aggressives Preis-Leistungs-Verhaeltnis$0,07-$0,55$0,28-$2,19

Reasoning-Modelle (separate Kategorie): OpenAI o3/o4-mini, Claude Extended Thinking, Gemini Thinking Mode. Tiefes Reasoning, hoehere Kosten, hoehere Latenz.

Was PMs wissen müssen:

  • MMLU/MMLU-Pro: Allgemeinwissen über 57+ Domainen. Der meistzitierte Benchmark, aber zunehmend gesaettigt an der Spitze
  • SWE-bench: Echte Software-Engineering-Aufgaben (GitHub Issues loesen). Aussagekraeftiger als HumanEval für Production-Coding
  • ARC-AGI: Abstraktes Reasoning. Testet Mustererkennung, die Menschen leicht finden, aber LLMs schwer
  • LMArena (ehem. LMSYS Chatbot Arena): Community-basiertes Elo-Ranking durch blinde Nutzer-Votes. Naeher an realer Nutzererfahrung als automatisierte Benchmarks — aber anfaellig für Style-Over-Substance-Bias (laengere, huebschere Antworten werden bevorzugt)

PM-Caveat: Benchmarks messen Modell-Faehigkeiten unter kontrollierten Bedingungen. Sie messen nicht die Performance auf DEINEM spezifischen Task. Ein Modell auf Platz 1 bei MMLU kann bei Deinem Kundensupport-Use-Case unterdurchschnittlich abschneiden. Immer auf eigenen Daten evaluieren.

Das aufkommende Production-Pattern: Verschiedene Modelle für verschiedene Aufgaben statt ein Modell für alles.

Tiered Routing Architecture:

  • Fast/Guenstig-Tier (Gemini Flash, GPT-4o-mini, Llama): Einfache Klassifikation, Extraktion, Formatierung — 70-80% der Anfragen
  • Strong-Tier (Claude Sonnet, GPT-4o, Gemini Pro): Komplexes Reasoning, Generierung, Analyse — 15-25% der Anfragen
  • Reasoning-Tier (o3, Claude Extended Thinking): Multi-Step Reasoning, Research — 1-5% der Anfragen

Kostenwirkung: Multi-Model Routing kann Kosten 5-10x senken gegenueber dem Ansatz, alles an das Frontier-Modell zu schicken.

Praktische Auswahlkriterien jenseits von Benchmarks

Abschnitt betitelt „Praktische Auswahlkriterien jenseits von Benchmarks“
KriteriumWarum wichtigWie evaluieren
Task-spezifische QualitätBenchmarks sagen Deinen Use Case nicht voraus50-100 repraesentative Anfragen blind bewerten
Latenz (TTFT + TPS)User Experience bei Echtzeit-FeaturesTime-to-First-Token und Tokens-pro-Sekunde messen
Kosten bei DEINEM Volumen10x Preisunterschied zwischen ModellenMonatskosten bei projiziertem Volumen berechnen
Datenschutz/ComplianceRegulatorische AnforderungenDatenverarbeitungsbedingungen prüfen; Self-Hosted Open Models in Betracht ziehen
Ecosystem/ToolingEntwicklerproduktivitaetFunction Calling, JSON Mode, Streaming, SDK-Qualität

Model-Selection in 3 Schritten:

Schritt 1 — Anforderungen definieren:

DimensionFragen
QualitätWas ist “gut genug” für dieses Feature?
LatenzEchtzeit (unter 2s)? Hintergrundverarbeitung OK?
KostenMonatliches Budget bei projiziertem Volumen?
ComplianceDatenresidenz? Datenschutz? Branchenregulierung?

Schritt 2 — Kandidaten evaluieren:

  • 50-100 repraesentative Anfragen auf 3-4 Kandidaten laufen lassen
  • Blind bewerten (Modellnamen entfernen, Qualität 1-5 bewerten)
  • Latenz messen und Kosten bei projiziertem Volumen berechnen

Schritt 3 — Für Wechsel designen:

  • Modellagnostische Abstraktionen nutzen (LiteLLM, OpenRouter, oder Provider-SDKs mit Adaptern)
  • Prompts pro Modell versionieren (verschiedene Modelle reagieren unterschiedlich auf denselben Prompt)
  • Qualitaetsmetriken kontinuierlich monitoren

Du bist PM bei einem E-Commerce SaaS (B2B, 1.200 Shops). Euer naechstes Feature: AI-generierte Produktbeschreibungen. Das Feature soll 3 Qualitaetsstufen bieten: Basic (Bullet Points), Standard (SEO-optimiert) und Premium (Storytelling + SEO).

Die Situation:

  • Volumen: 400.000 Produktbeschreibungen/Monat
  • Basic: 70% des Volumens (einfache Produkte)
  • Standard: 25% (Hauptkatalog)
  • Premium: 5% (Flaggschiff-Produkte)
  • Budget: 8.000 Euro/Monat für AI-Kosten
  • Anforderung: Latenz unter 5 Sekunden für alle Stufen
  • Sprachen: Deutsch, Englisch, Franzoesisch

Optionen:

  1. Single Model: Claude Sonnet 4.6 für alle Stufen. Geschaetzte Kosten: 22.000 Euro/Monat
  2. Zwei Tiers: Gemini 2.5 Flash für Basic + Standard, Claude Sonnet 4.6 für Premium. Geschaetzte Kosten: 5.800 Euro/Monat
  3. Drei Tiers: Llama 4 Scout (via API) für Basic, Gemini 2.5 Flash für Standard, Claude Opus 4.6 für Premium. Geschaetzte Kosten: 4.200 Euro/Monat
Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 2 — Zwei Tiers.

Warum:

  • Option 1 ist 2,75x über Budget: 22.000 Euro vs. 8.000 Euro Budget. Claude Sonnet für Bullet Points ist wie ein Ferrari für den Parkplatz
  • Option 2 trifft den Sweet Spot: 5.800 Euro liegt im Budget. Gemini 2.5 Flash ist für einfache Generierung ausreichend und bei 70-95% des Volumens massiv guenstiger. Claude Sonnet liefert Premium-Qualität nur dort, wo sie zaehlt (5% des Volumens)
  • Option 3 spart nochmal, aber: Llama 4 Scout erfordert entweder Self-Hosting (Infrastruktur-Aufwand) oder einen Third-Party-API-Provider. Die zusaetzliche Komplexität eines dritten Modells spart nur 1.600 Euro/Monat — das rechtfertigt den Engineering-Overhead für Routing, Testing und Monitoring nicht
  • Blind-Evaluation entscheidend: Vor dem Launch 100 Produktbeschreibungen je Modell generieren, blind bewerten lassen. Wenn Flash für Standard-Produkte 4/5 erreicht, ist die Zwei-Tier-Architektur validiert
  • Für Wechsel designen: Mit LiteLLM oder aehnlicher Abstraktion bauen. Wenn Gemini Flash in 6 Monaten 2x besser wird (oder ein neues Modell erscheint), sollte der Modellwechsel ein Config-Change sein, kein Rewrite

Haeufiger Fehler: Das teuerste Modell waehlen, weil es auf dem Leaderboard fuehrt. Der Qualitaetsunterschied zwischen Tier-1- und Tier-2-Modellen ist für viele Tasks marginal, der Kostenunterschied aber dramatisch.

  • Benchmarks sind Orientierung, keine Entscheidungsgrundlage. Immer auf eigenen Daten evaluieren — 50-100 repraesentative Anfragen, blind bewertet. Der Leaderboard-Sieger ist nicht automatisch die beste Wahl für Deinen Task.
  • Multi-Model Routing ist der Production-Standard. 70-80% der Anfragen gehen an das guenstige Modell, nur komplexe Aufgaben an das teure. 5-10x Kostenersparnis sind realistisch.
  • Designe für Modellwechsel. Die Modelllandschaft ändert sich quartalsmaessig. Wer sich an ein Modell bindet, zahlt später den Preis.
  • Datenschutz und Compliance können die Modellwahl einschraenken. Self-Hosted Open Models (Llama, Mistral) sind die Antwort, wenn keine Daten das Unternehmen verlassen duerfen.

Quellen: Artificial Analysis LLM Leaderboard, Klu 2026 LLM Leaderboard, DEV Community “Choosing an LLM in 2026”, Claude5.ai LLM API Pricing (2026), Shakudo Top 9 LLMs (March 2026)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn