Fine-Tuning

Context

Euer Customer-Success-Team beschwert sich: Der AI-Assistent klingt “zu generisch”. Er nutzt nicht die Fachsprache Eurer Branche, antwortet zu foermlich und formatiert Antworten anders als Euer Styleguide vorgibt. Der CTO schlägt Fine-Tuning vor. Dein VP Engineering fragt: “Wieviel kostet das, und wann sehen wir Ergebnisse?”

Fine-Tuning ist der dritte Hebel in der AI-Optimierungshierarchie — nach Prompt Engineering und RAG. Es ändert die Gewichte des Modells, also sein internes Verhalten. Das ist maechtig, aber teuer und unflexibel. PMs müssen verstehen, wann Fine-Tuning gerechtfertigt ist und wann es eine teure Abkuerzung für besseres Prompting ist.

Concept

Was Fine-Tuning tatsaechlich tut

Fine-Tuning nimmt ein vortrainiertes LLM und trainiert es auf einem domainspezifischen Datensatz weiter. Es ändert die Gewichte — das interne Verhalten — statt nur Kontext zur Laufzeit bereitzustellen.

Wofuer Fine-Tuning gut ist:

Konsistente Änderung von Ton, Stil oder Format
Domainspezifische Terminologie und Reasoning-Muster einbetten
Prompt-Laenge reduzieren (eintrainiertes Verhalten braucht keine Prompt-Anweisungen)
Performance auf eng definierten Tasks verbessern

Wofuer Fine-Tuning NICHT gut ist:

Neues Faktenwissen hinzufuegen (dafuer RAG — fine-tuned Wissen veraltet)
Einmalige Anpassungen (dafuer Prompting)
Tasks, deren Anforderungen sich häufig ändern (Re-Training ist teuer)

Fine-Tuning-Methoden

LoRA (Low-Rank Adaptation): Die dominante Methode seit 2025. Friert die Originalgewichte ein und trainiert kleine Adapter-Matrizen. Erreicht 95% der Full-Fine-Tuning-Performance bei 10% der Kosten. Adapter sind klein (10-100 MB) und können getauscht werden — mehrere Spezialisierungen aus einem Basismodell. Kosten: 500-5.000 Euro pro Run.

QLoRA: Kombiniert LoRA mit Quantisierung (16-Bit auf 4-Bit). Ermoeglicht Fine-Tuning eines 7B-Modells auf einer Consumer-GPU (RTX 4090, ca. 1.500 Euro). Leichter Qualitaetsverlust vs. Standard-LoRA. Ideal für Experimente und Proof of Concept.

Full Fine-Tuning: Alle Parameter aktualisieren. Hoechste Qualität, aber prohibitiv teuer: 10.000-30.000+ Euro pro Run für 7B+ Modelle. Nur wenn Budget keine Rolle spielt.

Managed Services (2026): OpenAI bietet Fine-Tuning-API für GPT-4o und GPT-4o-mini. Anthropic für Claude (Enterprise Tier). Google Vertex AI für Gemini. Upload JSONL, zahle pro Training-Token — kein Infrastruktur-Management noetig.

Datenqualitaet entscheidet

Modellgroesse	Minimum Beispiele	Empfohlen	Qualitaetsanforderung
7B (Mistral, Llama)	100-500	1.000-5.000	Konsistentes Format, korrekte Labels
13B-70B	500-1.000	5.000-10.000	Von Domain-Experten validiert
Managed API (GPT-4o)	10 (Minimum)	50-100	Hochwertige Input-Output-Paare

Die goldene Regel: 500 von Experten kuratierte Beispiele schlagen 50.000 verrauschte — besonders in spezialisierten Domaenen. Bei allgemeineren Aufgaben kann mehr Daten dennoch helfen. Der haeufigste Fehler bei Fine-Tuning ist nicht zu wenig Daten — sondern schlechte Daten.

Die Entscheidungshierarchie: Prompt, dann RAG, dann Fine-Tune

Das IBM-Framework (breit adoptiert):

Prompt Engineering (Stunden, 0-100 Euro): Wenn das Modell mit den richtigen Anweisungen akzeptable Ergebnisse liefert — hier stoppen
RAG (70-1.000 Euro/Monat laufend): Wenn das Modell Zugriff auf aktuelle/firmeneigene Daten braucht
Fine-Tuning (5.000-50.000+ Euro initial, laufende Wartung): Nur wenn Verhaltensaenderung noetig ist UND Prompt Engineering sie nicht erreichen kann

Framework

Fine-Tuning-Entscheidungsmatrix — beantworte diese Fragen der Reihe nach:

Frage	Ja	Nein
Kann Prompt Engineering das loesen?	Stopp. Kein Fine-Tuning noetig	Weiter
Braucht das Modell aktuelle/eigene Daten?	RAG hinzufuegen, dann prüfen	Weiter
Brauchst Du konsistente Verhaltensaenderung?	Weiter prüfen	Kein Fine-Tuning noetig
Hast Du 500+ hochwertige gelabelte Beispiele?	Weiter prüfen	Erst in Daten investieren
Verarbeitest Du 50.000+ Anfragen/Monat?	Weiter prüfen	ROI unwahrscheinlich
Kannst Du das Modell langfristig warten?	Fine-Tuning starten	Budget für Re-Training einplanen

Kosten und Timeline (2026):

Methode	Compute-Kosten	Engineering-Kosten	Gesamtdauer
LoRA (7B)	500-3.000 EUR	4.000-12.000 EUR (Daten + Eval)	2-4 Wochen
LoRA (13B)	2.000-5.000 EUR	4.000-12.000 EUR	3-6 Wochen
Full Fine-Tuning (7B)	10.000-30.000 EUR	8.000-20.000 EUR	4-8 Wochen
Managed API (OpenAI)	0,80-3,00 USD/1M Training-Tokens	Minimal	1-3 Tage

ROI-Benchmark: Fine-Tuning amortisiert sich typischerweise in 4-8 Monaten bei Unternehmen mit 50.000+ Anfragen/Monat. Unter diesem Volumen ist Prompt Engineering meist kosteneffektiver.

Scenario

Du bist PM bei einem FinTech-Startup (B2C, 150.000 MAU). Euer AI-Feature: automatische Kategorisierung von Banktransaktionen. Das aktuelle System nutzt GPT-4o-mini mit Few-Shot Prompting und erreicht 82% Genauigkeit.

Die Situation:

Zielgenauigkeit: 92%+ (Nutzer beschweren sich über falsche Kategorien)
Volumen: 3 Millionen Transaktionen/Monat
Aktuelle Kosten: 4.200 Euro/Monat (GPT-4o-mini API)
Euer Data-Team hat 12.000 manuell kategorisierte Transaktionen gesammelt
Konkurrenz: Zwei Wettbewerber haben kuerzlich “AI-Kategorisierung” gelauncht

Optionen:

Bessere Prompts: Blended Prompt mit mehr Kontext (Transaktionshistorie, Haendler-Datenbank). Geschaetzte Verbesserung: 82% auf 87%. Aufwand: 1 Woche
Fine-Tuning (LoRA): GPT-4o-mini fine-tunen auf 12.000 Beispielen. Geschaetzte Verbesserung: 92%+. Aufwand: 3 Wochen, 6.000 Euro
Modellwechsel: Auf Claude Sonnet 4.6 wechseln mit optimiertem Prompt. Geschaetzte Verbesserung: 88%. Kosten: 18.000 Euro/Monat (4x hoeher)

Decide

Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 1 zuerst, dann Option 2.

Warum:

Hierarchie einhalten: Prompt-Optimierung zuerst (1 Woche). Wenn 87% nicht reichen, hast Du die Baseline für Fine-Tuning
Fine-Tuning ist hier gerechtfertigt: 3 Millionen Transaktionen/Monat ueberschreiten den ROI-Schwellenwert (50.000+) bei weitem. 12.000 gelabelte Beispiele sind ausreichend. Die Aufgabe (Kategorisierung) ist eng definiert — genau das, wofuer Fine-Tuning designt ist
LoRA auf GPT-4o-mini ist kostenoptimal: Fine-Tuned-Modelle brauchen kuerzere Prompts (Verhalten eintrainiert statt per Prompt angewiesen), was die laufenden API-Kosten senken kann
Option 3 ist ein Kostenproblem: 18.000 statt 4.200 Euro/Monat für 6 Prozentpunkte Verbesserung. Fine-Tuning kostet einmalig 6.000 Euro und spart langfristig
Erwarteter Pfad: Woche 1: Prompt auf 87% optimieren. Woche 2-4: Fine-Tuning auf 92%+. Fine-Tuning-Kosten amortisieren sich in unter 2 Monaten durch kuerzere Prompts

Haeufiger Fehler: Fine-Tuning eines schwachen Modells statt besseres Prompting eines staerkeren. In diesem Fall ist GPT-4o-mini mit Fine-Tuning die richtige Wahl, weil das Volumen den ROI rechtfertigt und die Aufgabe eng genug ist.

Reflect

Fine-Tuning ändert Verhalten, nicht Wissen. Es macht das Modell nicht “schlauer” — es passt Stil, Format und domainspezifische Muster an. Für neues Wissen brauchst Du RAG.
Die Hierarchie Prompt, dann RAG, dann Fine-Tune ist keine Empfehlung — sie ist ein Kostenschutz. Jeder Schritt ist eine Groessenordnung teurer und weniger flexibel.
Datenqualitaet schlägt Datenquantitaet. 500 Experten-Beispiele sind mehr wert als 50.000 verrauschte.
Fine-Tuning ist kein einmaliger Aufwand. Modelle müssen neu trainiert werden, wenn sich Daten ändern oder Base Models aktualisiert werden. Budget für laufende Wartung einplanen.

Quellen: IBM RAG vs Fine-Tuning vs Prompt Engineering, Stratagem Systems LoRA Fine-Tuning Cost Analysis (2026), Introl Fine-Tuning Infrastructure Guide (2025), Heavybit LLM Fine-Tuning Guide, Stratagem Systems LLM Fine-Tuning Business Guide (2026)