Zum Inhalt springen
EN DE

Fine-Tuning

Euer Customer-Success-Team beschwert sich: Der AI-Assistent klingt “zu generisch”. Er nutzt nicht die Fachsprache Eurer Branche, antwortet zu foermlich und formatiert Antworten anders als Euer Styleguide vorgibt. Der CTO schlägt Fine-Tuning vor. Dein VP Engineering fragt: “Wieviel kostet das, und wann sehen wir Ergebnisse?”

Fine-Tuning ist der dritte Hebel in der AI-Optimierungshierarchie — nach Prompt Engineering und RAG. Es ändert die Gewichte des Modells, also sein internes Verhalten. Das ist maechtig, aber teuer und unflexibel. PMs müssen verstehen, wann Fine-Tuning gerechtfertigt ist und wann es eine teure Abkuerzung für besseres Prompting ist.

Fine-Tuning nimmt ein vortrainiertes LLM und trainiert es auf einem domainspezifischen Datensatz weiter. Es ändert die Gewichte — das interne Verhalten — statt nur Kontext zur Laufzeit bereitzustellen.

Wofuer Fine-Tuning gut ist:

  • Konsistente Änderung von Ton, Stil oder Format
  • Domainspezifische Terminologie und Reasoning-Muster einbetten
  • Prompt-Laenge reduzieren (eintrainiertes Verhalten braucht keine Prompt-Anweisungen)
  • Performance auf eng definierten Tasks verbessern

Wofuer Fine-Tuning NICHT gut ist:

  • Neues Faktenwissen hinzufuegen (dafuer RAG — fine-tuned Wissen veraltet)
  • Einmalige Anpassungen (dafuer Prompting)
  • Tasks, deren Anforderungen sich häufig ändern (Re-Training ist teuer)

LoRA (Low-Rank Adaptation): Die dominante Methode seit 2025. Friert die Originalgewichte ein und trainiert kleine Adapter-Matrizen. Erreicht 95% der Full-Fine-Tuning-Performance bei 10% der Kosten. Adapter sind klein (10-100 MB) und können getauscht werden — mehrere Spezialisierungen aus einem Basismodell. Kosten: 500-5.000 Euro pro Run.

QLoRA: Kombiniert LoRA mit Quantisierung (16-Bit auf 4-Bit). Ermoeglicht Fine-Tuning eines 7B-Modells auf einer Consumer-GPU (RTX 4090, ca. 1.500 Euro). Leichter Qualitaetsverlust vs. Standard-LoRA. Ideal für Experimente und Proof of Concept.

Full Fine-Tuning: Alle Parameter aktualisieren. Hoechste Qualität, aber prohibitiv teuer: 10.000-30.000+ Euro pro Run für 7B+ Modelle. Nur wenn Budget keine Rolle spielt.

Managed Services (2026): OpenAI bietet Fine-Tuning-API für GPT-4o und GPT-4o-mini. Anthropic für Claude (Enterprise Tier). Google Vertex AI für Gemini. Upload JSONL, zahle pro Training-Token — kein Infrastruktur-Management noetig.

ModellgroesseMinimum BeispieleEmpfohlenQualitaetsanforderung
7B (Mistral, Llama)100-5001.000-5.000Konsistentes Format, korrekte Labels
13B-70B500-1.0005.000-10.000Von Domain-Experten validiert
Managed API (GPT-4o)10 (Minimum)50-100Hochwertige Input-Output-Paare

Die goldene Regel: 500 von Experten kuratierte Beispiele schlagen 50.000 verrauschte — besonders in spezialisierten Domaenen. Bei allgemeineren Aufgaben kann mehr Daten dennoch helfen. Der haeufigste Fehler bei Fine-Tuning ist nicht zu wenig Daten — sondern schlechte Daten.

Die Entscheidungshierarchie: Prompt, dann RAG, dann Fine-Tune

Abschnitt betitelt „Die Entscheidungshierarchie: Prompt, dann RAG, dann Fine-Tune“

Das IBM-Framework (breit adoptiert):

  1. Prompt Engineering (Stunden, 0-100 Euro): Wenn das Modell mit den richtigen Anweisungen akzeptable Ergebnisse liefert — hier stoppen
  2. RAG (70-1.000 Euro/Monat laufend): Wenn das Modell Zugriff auf aktuelle/firmeneigene Daten braucht
  3. Fine-Tuning (5.000-50.000+ Euro initial, laufende Wartung): Nur wenn Verhaltensaenderung noetig ist UND Prompt Engineering sie nicht erreichen kann

Fine-Tuning-Entscheidungsmatrix — beantworte diese Fragen der Reihe nach:

FrageJaNein
Kann Prompt Engineering das loesen?Stopp. Kein Fine-Tuning noetigWeiter
Braucht das Modell aktuelle/eigene Daten?RAG hinzufuegen, dann prüfenWeiter
Brauchst Du konsistente Verhaltensaenderung?Weiter prüfenKein Fine-Tuning noetig
Hast Du 500+ hochwertige gelabelte Beispiele?Weiter prüfenErst in Daten investieren
Verarbeitest Du 50.000+ Anfragen/Monat?Weiter prüfenROI unwahrscheinlich
Kannst Du das Modell langfristig warten?Fine-Tuning startenBudget für Re-Training einplanen

Kosten und Timeline (2026):

MethodeCompute-KostenEngineering-KostenGesamtdauer
LoRA (7B)500-3.000 EUR4.000-12.000 EUR (Daten + Eval)2-4 Wochen
LoRA (13B)2.000-5.000 EUR4.000-12.000 EUR3-6 Wochen
Full Fine-Tuning (7B)10.000-30.000 EUR8.000-20.000 EUR4-8 Wochen
Managed API (OpenAI)0,80-3,00 USD/1M Training-TokensMinimal1-3 Tage

ROI-Benchmark: Fine-Tuning amortisiert sich typischerweise in 4-8 Monaten bei Unternehmen mit 50.000+ Anfragen/Monat. Unter diesem Volumen ist Prompt Engineering meist kosteneffektiver.

Du bist PM bei einem FinTech-Startup (B2C, 150.000 MAU). Euer AI-Feature: automatische Kategorisierung von Banktransaktionen. Das aktuelle System nutzt GPT-4o-mini mit Few-Shot Prompting und erreicht 82% Genauigkeit.

Die Situation:

  • Zielgenauigkeit: 92%+ (Nutzer beschweren sich über falsche Kategorien)
  • Volumen: 3 Millionen Transaktionen/Monat
  • Aktuelle Kosten: 4.200 Euro/Monat (GPT-4o-mini API)
  • Euer Data-Team hat 12.000 manuell kategorisierte Transaktionen gesammelt
  • Konkurrenz: Zwei Wettbewerber haben kuerzlich “AI-Kategorisierung” gelauncht

Optionen:

  1. Bessere Prompts: Blended Prompt mit mehr Kontext (Transaktionshistorie, Haendler-Datenbank). Geschaetzte Verbesserung: 82% auf 87%. Aufwand: 1 Woche
  2. Fine-Tuning (LoRA): GPT-4o-mini fine-tunen auf 12.000 Beispielen. Geschaetzte Verbesserung: 92%+. Aufwand: 3 Wochen, 6.000 Euro
  3. Modellwechsel: Auf Claude Sonnet 4.6 wechseln mit optimiertem Prompt. Geschaetzte Verbesserung: 88%. Kosten: 18.000 Euro/Monat (4x hoeher)
Wie wuerdest Du entscheiden?

Die beste Entscheidung: Option 1 zuerst, dann Option 2.

Warum:

  • Hierarchie einhalten: Prompt-Optimierung zuerst (1 Woche). Wenn 87% nicht reichen, hast Du die Baseline für Fine-Tuning
  • Fine-Tuning ist hier gerechtfertigt: 3 Millionen Transaktionen/Monat ueberschreiten den ROI-Schwellenwert (50.000+) bei weitem. 12.000 gelabelte Beispiele sind ausreichend. Die Aufgabe (Kategorisierung) ist eng definiert — genau das, wofuer Fine-Tuning designt ist
  • LoRA auf GPT-4o-mini ist kostenoptimal: Fine-Tuned-Modelle brauchen kuerzere Prompts (Verhalten eintrainiert statt per Prompt angewiesen), was die laufenden API-Kosten senken kann
  • Option 3 ist ein Kostenproblem: 18.000 statt 4.200 Euro/Monat für 6 Prozentpunkte Verbesserung. Fine-Tuning kostet einmalig 6.000 Euro und spart langfristig
  • Erwarteter Pfad: Woche 1: Prompt auf 87% optimieren. Woche 2-4: Fine-Tuning auf 92%+. Fine-Tuning-Kosten amortisieren sich in unter 2 Monaten durch kuerzere Prompts

Haeufiger Fehler: Fine-Tuning eines schwachen Modells statt besseres Prompting eines staerkeren. In diesem Fall ist GPT-4o-mini mit Fine-Tuning die richtige Wahl, weil das Volumen den ROI rechtfertigt und die Aufgabe eng genug ist.

  • Fine-Tuning ändert Verhalten, nicht Wissen. Es macht das Modell nicht “schlauer” — es passt Stil, Format und domainspezifische Muster an. Für neues Wissen brauchst Du RAG.
  • Die Hierarchie Prompt, dann RAG, dann Fine-Tune ist keine Empfehlung — sie ist ein Kostenschutz. Jeder Schritt ist eine Groessenordnung teurer und weniger flexibel.
  • Datenqualitaet schlägt Datenquantitaet. 500 Experten-Beispiele sind mehr wert als 50.000 verrauschte.
  • Fine-Tuning ist kein einmaliger Aufwand. Modelle müssen neu trainiert werden, wenn sich Daten ändern oder Base Models aktualisiert werden. Budget für laufende Wartung einplanen.

Quellen: IBM RAG vs Fine-Tuning vs Prompt Engineering, Stratagem Systems LoRA Fine-Tuning Cost Analysis (2026), Introl Fine-Tuning Infrastructure Guide (2025), Heavybit LLM Fine-Tuning Guide, Stratagem Systems LLM Fine-Tuning Business Guide (2026)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn