Foundation Models
Context
Abschnitt betitelt „Context“Dein CTO sagt: “Wir nehmen GPT-5.2.” Dein ML-Engineer widerspricht: “Llama 4 reicht und kostet ein Zehntel.” Der Berater schlägt vor, ein eigenes Modell zu trainieren. Alle haben gute Argumente.
Du bist der Product Manager. Du musst nicht wissen, welche Architektur besser ist. Aber Du musst verstehen, was Foundation Models sind, welche Optionen existieren, und wie Du die richtige Entscheidung für Dein Produkt triffst.
Concept
Abschnitt betitelt „Concept“Foundation Models sind Modelle, die auf breiten Daten in grossem Massstab trainiert und auf eine Vielzahl nachgelagerter Aufgaben anpassbar sind (Stanford HAI, 2021). Vor Foundation Models brauchtest Du ein separates Modell für jede Aufgabe. Heute nimmst Du ein Basismodell und passt es an.
Warum sie alles verändert haben
Abschnitt betitelt „Warum sie alles verändert haben“Emergent Capabilities: Ab einer bestimmten Groesse zeigen Foundation Models Faehigkeiten, für die sie nie explizit trainiert wurden. Ein Sprachmodell kann ploetzlich Code schreiben oder logisch schlussfolgern. Vorsicht: Aktuelle Forschung (arXiv:2503.05788, 2025) zeigt, dass manche dieser “ploetzlichen” Faehigkeiten Messartefakte sein koennten.
Homogenisierung: Dasselbe Modell liegt unter vielen verschiedenen Apps. Das ist effizient — aber auch ein Konzentrationsrisiko. Wenn das Basismodell einen systematischen Bias hat, erben ihn alle Anwendungen.
Demokratisierung: Frueher brauchtest Du ein ML-Team, um ein Modell zu bauen. Heute: Prompt schreiben → Fine-tuning → RAG. Die Einstiegshuerde für AI-Produkte ist drastisch gesunken.
Die aktuelle Landschaft (Maerz 2026)
Abschnitt betitelt „Die aktuelle Landschaft (Maerz 2026)“Closed-Source: OpenAI (GPT-5.2, o3), Anthropic (Claude Opus 4.6, Sonnet 4.6), Google (Gemini 3 Pro/Flash). Hoechste Qualität, einfachste Integration, aber Vendor Lock-in.
Open-Source: Meta (Llama 4), DeepSeek (V3.2), Alibaba (Qwen 3), Mistral. Volle Kontrolle, keine Abhängigkeit, aber Du brauchst eigene Infrastruktur. DeepSeek zeigt, dass Open-Source Frontier-Qualität erreichen kann — mit MIT-Lizenz und Performance auf IMO- und IOI-Benchmark-Niveau.
Alle Modelle werden zunehmend multimodal: Text, Bild, Audio, Video in einem Modell.
Anpassungstechniken — vom Billigsten zum Tiefsten
Abschnitt betitelt „Anpassungstechniken — vom Billigsten zum Tiefsten“| Technik | Was passiert | Kosten | Wann |
|---|---|---|---|
| Prompt Engineering | Zero-Shot, Few-Shot, Chain-of-Thought | Am guenstigsten | Schneller Start, Prototypen |
| RAG | Relevante Daten abrufen + in den Prompt injizieren | Mittel | Aktuelle Daten, weniger Hallucinations |
| Fine-tuning | Modellgewichte auf Domaene anpassen | Hoch | Spezialisierte Domaene, konsistenter Stil |
| Von Grund auf trainieren | Eigenes Modell bauen | Sehr hoch | Einzigartige Daten, strategischer Vorteil |
Die Faustregel: So weit rechts wie noetig, so weit links wie möglich.
Framework
Abschnitt betitelt „Framework“Foundation Model Selection — drei Schritte zur richtigen Modellwahl:
Schritt 1 — Requirements definieren: Task-Typ, Latenz, Volumen, Datensensitivitaet, Genauigkeit, Budget.
Schritt 2 — Auf Modellkategorie mappen:
| Anforderung | Ansatz |
|---|---|
| Schnell, guenstig, gut genug | Open-Source oder Gemini Flash |
| Maximale Qualität | Claude Opus, GPT-5.2, Gemini Pro |
| Daten müssen lokal bleiben | Open-Source, Self-hosted |
| Multimodal | Gemini (nativ), GPT-5 (Vision), Claude (Vision) |
| Langer Context | Gemini (1M+), Llama 4 Scout (10M), Claude (200K) |
Schritt 3 — Mit Evals validieren. Nie auf Basis von Benchmarks allein entscheiden. Teste mit Deinen echten Daten, Deinen echten Use Cases.
Build vs Buy vs Blend:
| Strategie | Wann | Beispiel |
|---|---|---|
| Buy | Commoditized Use Case, Speed, Compliance | Duolingo: GPT-4 API für Sprachuebungen |
| Build | Wettbewerbsvorteil, sensible Daten | Harvey: eigenes Legal-LLM auf proprietaeren Rechtsdaten |
| Blend | Der Normalfall 2026 | Shopify Sidekick: API + proprietäre Commerce-Daten |
Das dominante Pattern 2026: Blend. Plattform kaufen, letzte Meile selbst bauen. Hybrid Routing — 80% guenstiges Open-Source, 20% Frontier Closed für die schwierigen Faelle.
Scenario
Abschnitt betitelt „Scenario“Du baust einen internen Wissensassistenten für ein Unternehmen mit 2.000 Mitarbeitern. Er soll interne Dokumente durchsuchen und Fragen beantworten. Die Dokumente enthalten vertrauliche HR- und Finanzdaten.
Die Optionen:
| Option | Setup-Kosten | Laufende Kosten/Monat | Datenschutz | Time-to-Market |
|---|---|---|---|---|
| A: Claude API + RAG | $15.000 | $3.200 | Daten verlassen das Unternehmen | 6 Wochen |
| B: Llama 4 Self-hosted + RAG | $80.000 | $1.800 | Volle Kontrolle | 14 Wochen |
| C: Blend — Llama 4 für Standard, Claude für Komplexes | $55.000 | $2.100 | Nur nicht-sensible Daten extern | 10 Wochen |
Closed-Source-Modelle kosten im Betrieb ca. 87% mehr als Open-Source-Alternativen (MIT Sloan), werden aber in 80% der Faelle gewaehlt — wegen einfacherer Integration und schnellerem Start.
Wie wuerdest Du entscheiden?
Die beste Entscheidung in diesem Szenario: Option C — Blend mit Hybrid Routing.
Warum:
- Vertrauliche HR-/Finanzdaten bleiben auf dem eigenen Llama-4-Server. Nur nicht-sensible Anfragen gehen an die Claude API für hoehere Qualität bei komplexem Reasoning.
- Die laufenden Kosten liegen 34% unter der reinen API-Lösung.
- 10 Wochen Time-to-Market ist ein akzeptabler Kompromiss — nicht so schnell wie reine API, aber mit deutlich besserem Datenschutz.
- Du vermeidest vollstaendigen Vendor Lock-in und kannst den Closed-Source-Anteil jederzeit ersetzen.
Was viele falsch machen: Entweder alles auf eine API setzen (“einfach und schnell”) ohne die Datenschutz-Implikationen zu bedenken, oder alles selbst hosten wollen und an der Komplexität scheitern.
Reflect
Abschnitt betitelt „Reflect“- Foundation Models sind die Plattformschicht von AI. Versteh sie als Infrastruktur-Entscheidung, nicht als Feature-Entscheidung — sie bestimmt, was Du bauen kannst und was nicht.
- Open vs Closed ist kein Entweder-Oder. Das dominante Pattern 2026 ist Hybrid Routing: guenstiges Open-Source für den Grossteil, Frontier Closed für die schwierigen Faelle.
- Die Anpassungstechnik ist wichtiger als das Modell. RAG mit einem guten Modell schlägt Fine-tuning mit dem besten Modell — wenn der Use Case passt.
- Evals schlagen Benchmarks. Kein Benchmark ersetzt den Test mit Deinen echten Daten und Deinen echten Nutzern.
Quellen: Bommasani et al. “On the Opportunities and Risks of Foundation Models” (Stanford HAI, 2021), MIT Sloan “Open vs Closed AI Models” (2025), arXiv:2503.05788 (2025), DeepSeek Technical Reports (2025-2026)