Model Selection

Context

Euer Head of Engineering hat eine Tabelle mit 15 LLMs erstellt, sortiert nach MMLU-Score. “Wir nehmen das beste Modell” ist seine Empfehlung. Das Problem: Das #1-Modell kostet 10x so viel wie #5 — und für Euren Use Case (Ticket-Klassifikation) ist der Qualitaetsunterschied marginal. Dein CFO wird die API-Rechnung im zweiten Monat sehen und fragen, warum Ihr das teuerste Modell für eine Aufgabe nutzt, die ein guenstigeres genauso gut erledigt.

Model Selection ist keine einmalige technische Entscheidung. Es ist eine Produktentscheidung, die Qualität, Kosten, Latenz und Compliance-Anforderungen balanciert — und die sich quartalsmaessig ändern kann, weil der Modellmarkt sich so schnell bewegt.

Concept

Die Modelllandschaft 2026

Stand: Maerz 2026. Modellpreise ändern sich quartalsmaessig. Die Prinzipien (Multi-Model Routing, eigene Evals, Design für Wechsel) bleiben stabil — konkrete Preise nicht.

Der Markt hat sich um wenige grosse Anbieter konsolidiert:

Anbieter	Frontier-Modell	Staerke	Input $/1M Tokens	Output $/1M Tokens
OpenAI	GPT-5.2 / GPT-5.4	Allround, starkes Tooling-Ecosystem	$1,75-$3,00	$7,00-$14,00
Anthropic	Claude Opus 4.6	Writing, Safety, Agentic Coding, 200K Context	$5,00	$25,00
Anthropic	Claude Sonnet 4.6	Bestes Performance-zu-Kosten-Verhaeltnis	$3,00	$15,00
Google	Gemini 3 Pro	Multimodal, 1M Context, Caching	$1,25	$10,00
Google	Gemini 2.5 Flash	Speed-optimiert, kosteneffizient	$0,15	$0,60
Meta	Llama 4 Scout (Open)	Open Source, 10M Context, schnell	$0,11	$0,34
DeepSeek	DeepSeek-V3 / R1	Aggressives Preis-Leistungs-Verhaeltnis	$0,07-$0,55	$0,28-$2,19

Reasoning-Modelle (separate Kategorie): OpenAI o3/o4-mini, Claude Extended Thinking, Gemini Thinking Mode. Tiefes Reasoning, hoehere Kosten, hoehere Latenz.

Benchmarks — und ihre Grenzen

Was PMs wissen müssen:

MMLU/MMLU-Pro: Allgemeinwissen über 57+ Domainen. Der meistzitierte Benchmark, aber zunehmend gesaettigt an der Spitze
SWE-bench: Echte Software-Engineering-Aufgaben (GitHub Issues loesen). Aussagekraeftiger als HumanEval für Production-Coding
ARC-AGI: Abstraktes Reasoning. Testet Mustererkennung, die Menschen leicht finden, aber LLMs schwer
LMArena (ehem. LMSYS Chatbot Arena): Community-basiertes Elo-Ranking durch blinde Nutzer-Votes. Naeher an realer Nutzererfahrung als automatisierte Benchmarks — aber anfaellig für Style-Over-Substance-Bias (laengere, huebschere Antworten werden bevorzugt)

PM-Caveat: Benchmarks messen Modell-Faehigkeiten unter kontrollierten Bedingungen. Sie messen nicht die Performance auf DEINEM spezifischen Task. Ein Modell auf Platz 1 bei MMLU kann bei Deinem Kundensupport-Use-Case unterdurchschnittlich abschneiden. Immer auf eigenen Daten evaluieren.

Multi-Model Routing

Das aufkommende Production-Pattern: Verschiedene Modelle für verschiedene Aufgaben statt ein Modell für alles.

Tiered Routing Architecture:

Fast/Guenstig-Tier (Gemini Flash, GPT-4o-mini, Llama): Einfache Klassifikation, Extraktion, Formatierung — 70-80% der Anfragen
Strong-Tier (Claude Sonnet, GPT-4o, Gemini Pro): Komplexes Reasoning, Generierung, Analyse — 15-25% der Anfragen
Reasoning-Tier (o3, Claude Extended Thinking): Multi-Step Reasoning, Research — 1-5% der Anfragen

Kostenwirkung: Multi-Model Routing kann Kosten 5-10x senken gegenueber dem Ansatz, alles an das Frontier-Modell zu schicken.

Praktische Auswahlkriterien jenseits von Benchmarks

Kriterium	Warum wichtig	Wie evaluieren
Task-spezifische Qualität	Benchmarks sagen Deinen Use Case nicht voraus	50-100 repraesentative Anfragen blind bewerten
Latenz (TTFT + TPS)	User Experience bei Echtzeit-Features	Time-to-First-Token und Tokens-pro-Sekunde messen
Kosten bei DEINEM Volumen	10x Preisunterschied zwischen Modellen	Monatskosten bei projiziertem Volumen berechnen
Datenschutz/Compliance	Regulatorische Anforderungen	Datenverarbeitungsbedingungen prüfen; Self-Hosted Open Models in Betracht ziehen
Ecosystem/Tooling	Entwicklerproduktivitaet	Function Calling, JSON Mode, Streaming, SDK-Qualität

Framework

Model-Selection in 3 Schritten:

Schritt 1 — Anforderungen definieren:

Dimension	Fragen
Qualität	Was ist “gut genug” für dieses Feature?
Latenz	Echtzeit (unter 2s)? Hintergrundverarbeitung OK?
Kosten	Monatliches Budget bei projiziertem Volumen?
Compliance	Datenresidenz? Datenschutz? Branchenregulierung?

Schritt 2 — Kandidaten evaluieren:

50-100 repraesentative Anfragen auf 3-4 Kandidaten laufen lassen
Blind bewerten (Modellnamen entfernen, Qualität 1-5 bewerten)
Latenz messen und Kosten bei projiziertem Volumen berechnen

Schritt 3 — Für Wechsel designen:

Modellagnostische Abstraktionen nutzen (LiteLLM, OpenRouter, oder Provider-SDKs mit Adaptern)
Prompts pro Modell versionieren (verschiedene Modelle reagieren unterschiedlich auf denselben Prompt)
Qualitaetsmetriken kontinuierlich monitoren

Scenario

Du bist PM bei einem E-Commerce SaaS (B2B, 1.200 Shops). Euer naechstes Feature: AI-generierte Produktbeschreibungen. Das Feature soll 3 Qualitaetsstufen bieten: Basic (Bullet Points), Standard (SEO-optimiert) und Premium (Storytelling + SEO).

Die Situation:

Volumen: 400.000 Produktbeschreibungen/Monat
Basic: 70% des Volumens (einfache Produkte)
Standard: 25% (Hauptkatalog)
Premium: 5% (Flaggschiff-Produkte)
Budget: 8.000 Euro/Monat für AI-Kosten
Anforderung: Latenz unter 5 Sekunden für alle Stufen
Sprachen: Deutsch, Englisch, Franzoesisch

Optionen:

Single Model: Claude Sonnet 4.6 für alle Stufen. Geschaetzte Kosten: 22.000 Euro/Monat
Zwei Tiers: Gemini 2.5 Flash für Basic + Standard, Claude Sonnet 4.6 für Premium. Geschaetzte Kosten: 5.800 Euro/Monat
Drei Tiers: Llama 4 Scout (via API) für Basic, Gemini 2.5 Flash für Standard, Claude Opus 4.6 für Premium. Geschaetzte Kosten: 4.200 Euro/Monat

Decide

Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 2 — Zwei Tiers.

Warum:

Option 1 ist 2,75x über Budget: 22.000 Euro vs. 8.000 Euro Budget. Claude Sonnet für Bullet Points ist wie ein Ferrari für den Parkplatz
Option 2 trifft den Sweet Spot: 5.800 Euro liegt im Budget. Gemini 2.5 Flash ist für einfache Generierung ausreichend und bei 70-95% des Volumens massiv guenstiger. Claude Sonnet liefert Premium-Qualität nur dort, wo sie zaehlt (5% des Volumens)
Option 3 spart nochmal, aber: Llama 4 Scout erfordert entweder Self-Hosting (Infrastruktur-Aufwand) oder einen Third-Party-API-Provider. Die zusaetzliche Komplexität eines dritten Modells spart nur 1.600 Euro/Monat — das rechtfertigt den Engineering-Overhead für Routing, Testing und Monitoring nicht
Blind-Evaluation entscheidend: Vor dem Launch 100 Produktbeschreibungen je Modell generieren, blind bewerten lassen. Wenn Flash für Standard-Produkte 4/5 erreicht, ist die Zwei-Tier-Architektur validiert
Für Wechsel designen: Mit LiteLLM oder aehnlicher Abstraktion bauen. Wenn Gemini Flash in 6 Monaten 2x besser wird (oder ein neues Modell erscheint), sollte der Modellwechsel ein Config-Change sein, kein Rewrite

Haeufiger Fehler: Das teuerste Modell waehlen, weil es auf dem Leaderboard fuehrt. Der Qualitaetsunterschied zwischen Tier-1- und Tier-2-Modellen ist für viele Tasks marginal, der Kostenunterschied aber dramatisch.

Reflect

Benchmarks sind Orientierung, keine Entscheidungsgrundlage. Immer auf eigenen Daten evaluieren — 50-100 repraesentative Anfragen, blind bewertet. Der Leaderboard-Sieger ist nicht automatisch die beste Wahl für Deinen Task.
Multi-Model Routing ist der Production-Standard. 70-80% der Anfragen gehen an das guenstige Modell, nur komplexe Aufgaben an das teure. 5-10x Kostenersparnis sind realistisch.
Designe für Modellwechsel. Die Modelllandschaft ändert sich quartalsmaessig. Wer sich an ein Modell bindet, zahlt später den Preis.
Datenschutz und Compliance können die Modellwahl einschraenken. Self-Hosted Open Models (Llama, Mistral) sind die Antwort, wenn keine Daten das Unternehmen verlassen duerfen.

Quellen: Artificial Analysis LLM Leaderboard, Klu 2026 LLM Leaderboard, DEV Community “Choosing an LLM in 2026”, Claude5.ai LLM API Pricing (2026), Shakudo Top 9 LLMs (March 2026)