Fine-Tuning
Context
Abschnitt betitelt „Context“Euer Customer-Success-Team beschwert sich: Der AI-Assistent klingt “zu generisch”. Er nutzt nicht die Fachsprache Eurer Branche, antwortet zu foermlich und formatiert Antworten anders als Euer Styleguide vorgibt. Der CTO schlägt Fine-Tuning vor. Dein VP Engineering fragt: “Wieviel kostet das, und wann sehen wir Ergebnisse?”
Fine-Tuning ist der dritte Hebel in der AI-Optimierungshierarchie — nach Prompt Engineering und RAG. Es ändert die Gewichte des Modells, also sein internes Verhalten. Das ist maechtig, aber teuer und unflexibel. PMs müssen verstehen, wann Fine-Tuning gerechtfertigt ist und wann es eine teure Abkuerzung für besseres Prompting ist.
Concept
Abschnitt betitelt „Concept“Was Fine-Tuning tatsaechlich tut
Abschnitt betitelt „Was Fine-Tuning tatsaechlich tut“Fine-Tuning nimmt ein vortrainiertes LLM und trainiert es auf einem domainspezifischen Datensatz weiter. Es ändert die Gewichte — das interne Verhalten — statt nur Kontext zur Laufzeit bereitzustellen.
Wofuer Fine-Tuning gut ist:
- Konsistente Änderung von Ton, Stil oder Format
- Domainspezifische Terminologie und Reasoning-Muster einbetten
- Prompt-Laenge reduzieren (eintrainiertes Verhalten braucht keine Prompt-Anweisungen)
- Performance auf eng definierten Tasks verbessern
Wofuer Fine-Tuning NICHT gut ist:
- Neues Faktenwissen hinzufuegen (dafuer RAG — fine-tuned Wissen veraltet)
- Einmalige Anpassungen (dafuer Prompting)
- Tasks, deren Anforderungen sich häufig ändern (Re-Training ist teuer)
Fine-Tuning-Methoden
Abschnitt betitelt „Fine-Tuning-Methoden“LoRA (Low-Rank Adaptation): Die dominante Methode seit 2025. Friert die Originalgewichte ein und trainiert kleine Adapter-Matrizen. Erreicht 95% der Full-Fine-Tuning-Performance bei 10% der Kosten. Adapter sind klein (10-100 MB) und können getauscht werden — mehrere Spezialisierungen aus einem Basismodell. Kosten: 500-5.000 Euro pro Run.
QLoRA: Kombiniert LoRA mit Quantisierung (16-Bit auf 4-Bit). Ermoeglicht Fine-Tuning eines 7B-Modells auf einer Consumer-GPU (RTX 4090, ca. 1.500 Euro). Leichter Qualitaetsverlust vs. Standard-LoRA. Ideal für Experimente und Proof of Concept.
Full Fine-Tuning: Alle Parameter aktualisieren. Hoechste Qualität, aber prohibitiv teuer: 10.000-30.000+ Euro pro Run für 7B+ Modelle. Nur wenn Budget keine Rolle spielt.
Managed Services (2026): OpenAI bietet Fine-Tuning-API für GPT-4o und GPT-4o-mini. Anthropic für Claude (Enterprise Tier). Google Vertex AI für Gemini. Upload JSONL, zahle pro Training-Token — kein Infrastruktur-Management noetig.
Datenqualitaet entscheidet
Abschnitt betitelt „Datenqualitaet entscheidet“| Modellgroesse | Minimum Beispiele | Empfohlen | Qualitaetsanforderung |
|---|---|---|---|
| 7B (Mistral, Llama) | 100-500 | 1.000-5.000 | Konsistentes Format, korrekte Labels |
| 13B-70B | 500-1.000 | 5.000-10.000 | Von Domain-Experten validiert |
| Managed API (GPT-4o) | 10 (Minimum) | 50-100 | Hochwertige Input-Output-Paare |
Die goldene Regel: 500 von Experten kuratierte Beispiele schlagen 50.000 verrauschte — besonders in spezialisierten Domaenen. Bei allgemeineren Aufgaben kann mehr Daten dennoch helfen. Der haeufigste Fehler bei Fine-Tuning ist nicht zu wenig Daten — sondern schlechte Daten.
Die Entscheidungshierarchie: Prompt, dann RAG, dann Fine-Tune
Abschnitt betitelt „Die Entscheidungshierarchie: Prompt, dann RAG, dann Fine-Tune“Das IBM-Framework (breit adoptiert):
- Prompt Engineering (Stunden, 0-100 Euro): Wenn das Modell mit den richtigen Anweisungen akzeptable Ergebnisse liefert — hier stoppen
- RAG (70-1.000 Euro/Monat laufend): Wenn das Modell Zugriff auf aktuelle/firmeneigene Daten braucht
- Fine-Tuning (5.000-50.000+ Euro initial, laufende Wartung): Nur wenn Verhaltensaenderung noetig ist UND Prompt Engineering sie nicht erreichen kann
Framework
Abschnitt betitelt „Framework“Fine-Tuning-Entscheidungsmatrix — beantworte diese Fragen der Reihe nach:
| Frage | Ja | Nein |
|---|---|---|
| Kann Prompt Engineering das loesen? | Stopp. Kein Fine-Tuning noetig | Weiter |
| Braucht das Modell aktuelle/eigene Daten? | RAG hinzufuegen, dann prüfen | Weiter |
| Brauchst Du konsistente Verhaltensaenderung? | Weiter prüfen | Kein Fine-Tuning noetig |
| Hast Du 500+ hochwertige gelabelte Beispiele? | Weiter prüfen | Erst in Daten investieren |
| Verarbeitest Du 50.000+ Anfragen/Monat? | Weiter prüfen | ROI unwahrscheinlich |
| Kannst Du das Modell langfristig warten? | Fine-Tuning starten | Budget für Re-Training einplanen |
Kosten und Timeline (2026):
| Methode | Compute-Kosten | Engineering-Kosten | Gesamtdauer |
|---|---|---|---|
| LoRA (7B) | 500-3.000 EUR | 4.000-12.000 EUR (Daten + Eval) | 2-4 Wochen |
| LoRA (13B) | 2.000-5.000 EUR | 4.000-12.000 EUR | 3-6 Wochen |
| Full Fine-Tuning (7B) | 10.000-30.000 EUR | 8.000-20.000 EUR | 4-8 Wochen |
| Managed API (OpenAI) | 0,80-3,00 USD/1M Training-Tokens | Minimal | 1-3 Tage |
ROI-Benchmark: Fine-Tuning amortisiert sich typischerweise in 4-8 Monaten bei Unternehmen mit 50.000+ Anfragen/Monat. Unter diesem Volumen ist Prompt Engineering meist kosteneffektiver.
Scenario
Abschnitt betitelt „Scenario“Du bist PM bei einem FinTech-Startup (B2C, 150.000 MAU). Euer AI-Feature: automatische Kategorisierung von Banktransaktionen. Das aktuelle System nutzt GPT-4o-mini mit Few-Shot Prompting und erreicht 82% Genauigkeit.
Die Situation:
- Zielgenauigkeit: 92%+ (Nutzer beschweren sich über falsche Kategorien)
- Volumen: 3 Millionen Transaktionen/Monat
- Aktuelle Kosten: 4.200 Euro/Monat (GPT-4o-mini API)
- Euer Data-Team hat 12.000 manuell kategorisierte Transaktionen gesammelt
- Konkurrenz: Zwei Wettbewerber haben kuerzlich “AI-Kategorisierung” gelauncht
Optionen:
- Bessere Prompts: Blended Prompt mit mehr Kontext (Transaktionshistorie, Haendler-Datenbank). Geschaetzte Verbesserung: 82% auf 87%. Aufwand: 1 Woche
- Fine-Tuning (LoRA): GPT-4o-mini fine-tunen auf 12.000 Beispielen. Geschaetzte Verbesserung: 92%+. Aufwand: 3 Wochen, 6.000 Euro
- Modellwechsel: Auf Claude Sonnet 4.6 wechseln mit optimiertem Prompt. Geschaetzte Verbesserung: 88%. Kosten: 18.000 Euro/Monat (4x hoeher)
Wie wuerdest Du entscheiden?
Die beste Entscheidung: Option 1 zuerst, dann Option 2.
Warum:
- Hierarchie einhalten: Prompt-Optimierung zuerst (1 Woche). Wenn 87% nicht reichen, hast Du die Baseline für Fine-Tuning
- Fine-Tuning ist hier gerechtfertigt: 3 Millionen Transaktionen/Monat ueberschreiten den ROI-Schwellenwert (50.000+) bei weitem. 12.000 gelabelte Beispiele sind ausreichend. Die Aufgabe (Kategorisierung) ist eng definiert — genau das, wofuer Fine-Tuning designt ist
- LoRA auf GPT-4o-mini ist kostenoptimal: Fine-Tuned-Modelle brauchen kuerzere Prompts (Verhalten eintrainiert statt per Prompt angewiesen), was die laufenden API-Kosten senken kann
- Option 3 ist ein Kostenproblem: 18.000 statt 4.200 Euro/Monat für 6 Prozentpunkte Verbesserung. Fine-Tuning kostet einmalig 6.000 Euro und spart langfristig
- Erwarteter Pfad: Woche 1: Prompt auf 87% optimieren. Woche 2-4: Fine-Tuning auf 92%+. Fine-Tuning-Kosten amortisieren sich in unter 2 Monaten durch kuerzere Prompts
Haeufiger Fehler: Fine-Tuning eines schwachen Modells statt besseres Prompting eines staerkeren. In diesem Fall ist GPT-4o-mini mit Fine-Tuning die richtige Wahl, weil das Volumen den ROI rechtfertigt und die Aufgabe eng genug ist.
Reflect
Abschnitt betitelt „Reflect“- Fine-Tuning ändert Verhalten, nicht Wissen. Es macht das Modell nicht “schlauer” — es passt Stil, Format und domainspezifische Muster an. Für neues Wissen brauchst Du RAG.
- Die Hierarchie Prompt, dann RAG, dann Fine-Tune ist keine Empfehlung — sie ist ein Kostenschutz. Jeder Schritt ist eine Groessenordnung teurer und weniger flexibel.
- Datenqualitaet schlägt Datenquantitaet. 500 Experten-Beispiele sind mehr wert als 50.000 verrauschte.
- Fine-Tuning ist kein einmaliger Aufwand. Modelle müssen neu trainiert werden, wenn sich Daten ändern oder Base Models aktualisiert werden. Budget für laufende Wartung einplanen.
Quellen: IBM RAG vs Fine-Tuning vs Prompt Engineering, Stratagem Systems LoRA Fine-Tuning Cost Analysis (2026), Introl Fine-Tuning Infrastructure Guide (2025), Heavybit LLM Fine-Tuning Guide, Stratagem Systems LLM Fine-Tuning Business Guide (2026)