Die ML-Landschaft

Context

Dein Engineering-Team schlägt vor, ein Recommendation-Feature mit “unueberwachtem Lernen” zu bauen. Im nächsten Satz faellt “Reinforcement Learning”. In der Slack-Diskussion steht ploetzlich “Self-Supervised Pre-Training”.

Du musst kein Modell trainieren können. Aber Du musst verstehen, welche Art von ML welches Problem loest — sonst kannst Du weder den Vorschlag bewerten noch die richtige Frage stellen.

Concept

Drei Paradigmen der Programmierung

Andrej Karpathy unterscheidet Software 1.0 und 2.0. Für PMs ist das die wichtigste Grundunterscheidung:

Traditionelle Programmierung (Software 1.0): Ein Mensch schreibt Regeln. if order_status == "shipped": show_tracking()
Machine Learning: Die Maschine lernt Regeln aus gelabelten Beispielen. Du gibst 10.000 Support-Tickets mit Kategorien, das Modell lernt die Zuordnung.
Deep Learning: Die Maschine lernt direkt aus Rohdaten — ohne manuelles Feature Engineering. Tesla Autopilot verarbeitet Kamerabilder, kein Mensch definiert “was eine Ampel aussieht”.

Neuronale Netze — PM-Level

Ein Neural Network hat Input-Layer, Hidden Layers und Output-Layer. “Deep” bedeutet: viele Hidden Layers. Jede Verbindung hat ein Gewicht (Weight), das beim Training gelernt wird. Grosse Frontier-Modelle haben hunderte Milliarden bis über eine Billion Parameter — genaue Zahlen werden selten offiziell bestaetigt (OpenAI, Google und Anthropic veroeffentlichen keine Parameterzahlen).

Du musst die Mathematik nicht kennen. Aber Du musst wissen: Mehr Parameter = mehr Kapazitaet, aber auch mehr Kosten und mehr Daten zum Trainieren.

Fuenf Arten von Machine Learning

Typ	Wie es lernt	PM-Beispiel
Supervised	Gelabelte Daten (Input → bekanntes Output)	Spam-Erkennung, Churn-Prediction
Unsupervised	Muster in ungelabelten Daten	Kundensegmentierung, Anomalie-Erkennung
Semi-Supervised	Wenig gelabelt + viel ungelabelt	Wenn Labeling teuer ist, aber Rohdaten reichlich vorhanden
Self-Supervised	Modell erzeugt eigene Labels aus Daten	LLM Pre-Training (naechstes Wort vorhersagen)
Reinforcement Learning	Trial-and-Error mit Belohnung	RLHF für Chatbots, Prozessoptimierung

Classification vs. Generation

Discriminative Modelle lernen Grenzen: Ist diese E-Mail Spam oder nicht? Sie berechnen P(Label|Daten).
Generative Modelle lernen die Datenverteilung: Wie sieht eine typische E-Mail aus? Sie berechnen P(Daten).

Deine PM-Faustregel: Sortieren/Labeln → Discriminative. Erstellen/Erzeugen → Generative. Beides → Hybrid Pipeline. Gmail Smart Reply macht genau das: Intent klassifizieren (discriminative), dann Antwort generieren (generative).

Wie LLMs “Geschmack” entwickeln

“Pre-Training = jedes Kochbuch lesen. Fine-Tuning = einem Koch zuschauen. RLHF = eigenen Geschmack entwickeln.”

RLHF (Reinforcement Learning from Human Feedback): Pre-Training → Reward Model aus menschlichem Feedback → Fine-Tuning mit PPO oder DPO (Direct Preference Optimization — seit 2024 gleichwertig verbreitet).
Constitutional AI (Anthropic): Das Modell kritisiert sich selbst anhand definierter Prinzipien — skalierbar ohne tausende menschliche Bewerter.

Framework

Die Data-Task Matrix — Dein Entscheidungsraster für ML-Ansaetze:

	Gelabelte Daten vorhanden	Nur ungelabelte Daten
Klassifizieren/Vorhersagen	Supervised Learning	Unsupervised oder Semi-Supervised
Generieren/Erstellen	Fine-tuned Generative Model	Foundation Model + Prompting/RAG
Prozess optimieren	Reinforcement Learning	Reinforcement Learning

So benutzt Du die Matrix: Bestimme zuerst Deine Task (Zeile), dann Deine Datenlage (Spalte). Das Feld sagt Dir, wo Du anfangen solltest.

Scenario

Du bist PM bei einem Streaming-Dienst. Das Ziel: bessere Empfehlungen. Euer Data Team hat drei Vorschlaege:

Option A: Supervised Model auf historischen Bewertungen (4,2 Mio. Ratings vorhanden)
Option B: Unsupervised Clustering der Nutzer nach Sehverhalten, dann regelbasierte Empfehlungen
Option C: Foundation Model (LLM) mit Prompting: “Basierend auf diesen Filmen, empfehle aehnliche”

Kontext:

Netflix nutzt einen Hybrid: Collaborative Filtering (Unsupervised) + Supervised Prediction
Euer Budget erlaubt kein Fine-Tuning eines Foundation Models
Ihr habt 4,2 Mio. gelabelte Ratings + Sehverlaeufe von 800.000 Nutzern

Decide

Welchen Ansatz waehlst Du?

Die beste Entscheidung: Option A + B kombinieren — ein Hybrid-Ansatz nach Netflix-Vorbild.

Warum:

Ihr habt gelabelte Daten (Ratings) → Supervised funktioniert. Die Data-Task Matrix zeigt klar: Klassifizieren + gelabelte Daten = Supervised.
Unsupervised Clustering liefert zusaetzliche Signale (Nutzer mit aehnlichem Sehverhalten), die das Supervised Model verbessern.
Option C (LLM mit Prompting) klingt modern, hat aber keine Personalisierung auf Basis eurer Nutzerdaten — und ist pro Anfrage deutlich teurer als ein spezialisiertes Recommendation Model.

Was viele falsch machen: Ein LLM für alles nehmen, obwohl ein spezialisiertes ML-Modell guenstiger, schneller und für den Use Case besser ist.

Reflect

ML ist kein Monolith. Supervised, Unsupervised, Self-Supervised und RL loesen fundamental verschiedene Probleme. Die falsche Wahl kostet Monate.
Die Datenlage bestimmt den Ansatz. Nicht die Technologie waehlen und dann Daten suchen — sondern die vorhandenen Daten bestimmen lassen, was möglich ist.
Generative ≠ immer besser. Discriminative Modelle sind für Klassifikation oft guenstiger, schneller und zuverlaessiger. Nicht jedes Problem braucht ein LLM.
Hybrid ist oft die Antwort. Die besten Produktsysteme kombinieren mehrere ML-Typen in einer Pipeline.

Quellen: Andrej Karpathy “Software 2.0” (2017), Chip Huyen “Designing Machine Learning Systems” (O’Reilly, 2022), Anthropic “Constitutional AI” (2023), OpenAI “Training language models to follow instructions with human feedback” (2022)