Zum Inhalt springen
EN DE

Die ML-Landschaft

Dein Engineering-Team schlägt vor, ein Recommendation-Feature mit “unueberwachtem Lernen” zu bauen. Im nächsten Satz faellt “Reinforcement Learning”. In der Slack-Diskussion steht ploetzlich “Self-Supervised Pre-Training”.

Du musst kein Modell trainieren können. Aber Du musst verstehen, welche Art von ML welches Problem loest — sonst kannst Du weder den Vorschlag bewerten noch die richtige Frage stellen.

Andrej Karpathy unterscheidet Software 1.0 und 2.0. Für PMs ist das die wichtigste Grundunterscheidung:

  • Traditionelle Programmierung (Software 1.0): Ein Mensch schreibt Regeln. if order_status == "shipped": show_tracking()
  • Machine Learning: Die Maschine lernt Regeln aus gelabelten Beispielen. Du gibst 10.000 Support-Tickets mit Kategorien, das Modell lernt die Zuordnung.
  • Deep Learning: Die Maschine lernt direkt aus Rohdaten — ohne manuelles Feature Engineering. Tesla Autopilot verarbeitet Kamerabilder, kein Mensch definiert “was eine Ampel aussieht”.

Ein Neural Network hat Input-Layer, Hidden Layers und Output-Layer. “Deep” bedeutet: viele Hidden Layers. Jede Verbindung hat ein Gewicht (Weight), das beim Training gelernt wird. Grosse Frontier-Modelle haben hunderte Milliarden bis über eine Billion Parameter — genaue Zahlen werden selten offiziell bestaetigt (OpenAI, Google und Anthropic veroeffentlichen keine Parameterzahlen).

Du musst die Mathematik nicht kennen. Aber Du musst wissen: Mehr Parameter = mehr Kapazitaet, aber auch mehr Kosten und mehr Daten zum Trainieren.

TypWie es lerntPM-Beispiel
SupervisedGelabelte Daten (Input → bekanntes Output)Spam-Erkennung, Churn-Prediction
UnsupervisedMuster in ungelabelten DatenKundensegmentierung, Anomalie-Erkennung
Semi-SupervisedWenig gelabelt + viel ungelabeltWenn Labeling teuer ist, aber Rohdaten reichlich vorhanden
Self-SupervisedModell erzeugt eigene Labels aus DatenLLM Pre-Training (naechstes Wort vorhersagen)
Reinforcement LearningTrial-and-Error mit BelohnungRLHF für Chatbots, Prozessoptimierung
  • Discriminative Modelle lernen Grenzen: Ist diese E-Mail Spam oder nicht? Sie berechnen P(Label|Daten).
  • Generative Modelle lernen die Datenverteilung: Wie sieht eine typische E-Mail aus? Sie berechnen P(Daten).

Deine PM-Faustregel: Sortieren/Labeln → Discriminative. Erstellen/Erzeugen → Generative. Beides → Hybrid Pipeline. Gmail Smart Reply macht genau das: Intent klassifizieren (discriminative), dann Antwort generieren (generative).

“Pre-Training = jedes Kochbuch lesen. Fine-Tuning = einem Koch zuschauen. RLHF = eigenen Geschmack entwickeln.”

  • RLHF (Reinforcement Learning from Human Feedback): Pre-Training → Reward Model aus menschlichem Feedback → Fine-Tuning mit PPO oder DPO (Direct Preference Optimization — seit 2024 gleichwertig verbreitet).
  • Constitutional AI (Anthropic): Das Modell kritisiert sich selbst anhand definierter Prinzipien — skalierbar ohne tausende menschliche Bewerter.

Die Data-Task Matrix — Dein Entscheidungsraster für ML-Ansaetze:

Gelabelte Daten vorhandenNur ungelabelte Daten
Klassifizieren/VorhersagenSupervised LearningUnsupervised oder Semi-Supervised
Generieren/ErstellenFine-tuned Generative ModelFoundation Model + Prompting/RAG
Prozess optimierenReinforcement LearningReinforcement Learning

So benutzt Du die Matrix: Bestimme zuerst Deine Task (Zeile), dann Deine Datenlage (Spalte). Das Feld sagt Dir, wo Du anfangen solltest.

Du bist PM bei einem Streaming-Dienst. Das Ziel: bessere Empfehlungen. Euer Data Team hat drei Vorschlaege:

  • Option A: Supervised Model auf historischen Bewertungen (4,2 Mio. Ratings vorhanden)
  • Option B: Unsupervised Clustering der Nutzer nach Sehverhalten, dann regelbasierte Empfehlungen
  • Option C: Foundation Model (LLM) mit Prompting: “Basierend auf diesen Filmen, empfehle aehnliche”

Kontext:

  • Netflix nutzt einen Hybrid: Collaborative Filtering (Unsupervised) + Supervised Prediction
  • Euer Budget erlaubt kein Fine-Tuning eines Foundation Models
  • Ihr habt 4,2 Mio. gelabelte Ratings + Sehverlaeufe von 800.000 Nutzern
Welchen Ansatz waehlst Du?

Die beste Entscheidung: Option A + B kombinieren — ein Hybrid-Ansatz nach Netflix-Vorbild.

Warum:

  • Ihr habt gelabelte Daten (Ratings) → Supervised funktioniert. Die Data-Task Matrix zeigt klar: Klassifizieren + gelabelte Daten = Supervised.
  • Unsupervised Clustering liefert zusaetzliche Signale (Nutzer mit aehnlichem Sehverhalten), die das Supervised Model verbessern.
  • Option C (LLM mit Prompting) klingt modern, hat aber keine Personalisierung auf Basis eurer Nutzerdaten — und ist pro Anfrage deutlich teurer als ein spezialisiertes Recommendation Model.

Was viele falsch machen: Ein LLM für alles nehmen, obwohl ein spezialisiertes ML-Modell guenstiger, schneller und für den Use Case besser ist.

  • ML ist kein Monolith. Supervised, Unsupervised, Self-Supervised und RL loesen fundamental verschiedene Probleme. Die falsche Wahl kostet Monate.
  • Die Datenlage bestimmt den Ansatz. Nicht die Technologie waehlen und dann Daten suchen — sondern die vorhandenen Daten bestimmen lassen, was möglich ist.
  • Generative ≠ immer besser. Discriminative Modelle sind für Klassifikation oft guenstiger, schneller und zuverlaessiger. Nicht jedes Problem braucht ein LLM.
  • Hybrid ist oft die Antwort. Die besten Produktsysteme kombinieren mehrere ML-Typen in einer Pipeline.

Quellen: Andrej Karpathy “Software 2.0” (2017), Chip Huyen “Designing Machine Learning Systems” (O’Reilly, 2022), Anthropic “Constitutional AI” (2023), OpenAI “Training language models to follow instructions with human feedback” (2022)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn