Zum Inhalt springen
EN DE

Wie LLMs denken

Dein CEO kommt aus einem Meeting und sagt: “Wir müssen AI in unser Produkt einbauen.” Dein Engineering-Team redet über Tokens, Temperature und Hallucinations. Dein Designer fragt, ob der Chatbot eine Persoenlichkeit braucht.

Du bist der Product Manager. Du musst nicht wissen, wie man ein LLM trainiert. Aber Du musst verstehen, was es tut — gut genug, um die richtigen Fragen zu stellen und die falschen Versprechungen zu erkennen.

Ein Large Language Model ist eine Wahrscheinlichkeitsmaschine für Text. Gegeben eine Eingabe (Prompt), berechnet es die wahrscheinlichste Fortsetzung — Token für Token.

Ein Token ist nicht ein Wort. Es ist ein Textstueck, das das Modell als Einheit verarbeitet. “Produktmanagement” könnte 2-3 Tokens sein. “AI” ist einer. Die Tokenisierung bestimmt, wie das Modell Sprache “sieht”.

Warum das für Dich relevant ist:

  • Tokens bestimmen die Kosten (Du zahlst pro Token)
  • Tokens bestimmen das Limit (Context Window = max. Tokens pro Anfrage)
  • Tokens bestimmen die Geschwindigkeit (mehr Tokens = laengere Antwortzeit)

Das Modell sieht Deinen Prompt und berechnet: Welches Token kommt am wahrscheinlichsten als naechstes? Dann nimmt es dieses Token, fuegt es an, und berechnet das nächste. Und so weiter.

Das bedeutet:

  • Das Modell plant nicht. Es generiert sequenziell.
  • Das Modell weiss nichts. Es hat statistische Muster gelernt.
  • Das Modell entscheidet nicht. Es sampelt aus Wahrscheinlichkeitsverteilungen (bei Temperature 0 wird deterministisch das wahrscheinlichste Token gewaehlt).

Die Temperature steuert, wie “kreativ” das Modell antwortet:

TemperatureVerhaltenEinsatz
0.0Immer das wahrscheinlichste TokenFakten-Extraktion, Klassifizierung
0.3–0.7Leichte VariationDie meisten Produktanwendungen
1.0+Hohe ZufaelligkeitKreatives Schreiben, Brainstorming

Wenn ein LLM etwas “erfindet”, ist das keine Fehlfunktion — es ist das Modell, das tut was es immer tut: die wahrscheinlichste Fortsetzung generieren. Manchmal ist die wahrscheinlichste Fortsetzung faktisch falsch.

“Hallucinations sind kein Bug. Sie sind eine inhärente Eigenschaft von Systemen, die auf Wahrscheinlichkeit basieren — reduzierbar, aber nicht vollständig eliminierbar.”

Das Token-Kosten-Qualität-Dreieck — drei Variablen, die Du bei jeder AI-Produktentscheidung abwaegen musst:

VariableStellschraubeTradeoff
QualitätGroesseres Modell, mehr ContextHohere Kosten, langsamere Antwort
KostenKleineres Modell, weniger TokensGeringere Qualität
GeschwindigkeitStreaming, kleineres ModellPotentiell geringere Qualität

Du kannst nicht alle drei gleichzeitig maximieren. Deine Aufgabe als PM: Entscheiden, welche Variable für Dein Produkt am wichtigsten ist.

Du baust ein Kunden-Support-Tool. Der Bot soll haeufige Fragen beantworten — Retouren, Lieferstatus, Produktinfos. Dein Engineering-Team schlägt GPT-4 vor. Dein CFO will die Kosten niedrig halten.

Die Situation:

  • 50.000 Kundenanfragen pro Monat
  • Durchschnittlich 200 Tokens Input + 300 Tokens Output pro Anfrage
  • GPT-4o: $2,50/1M Input-Tokens, $10/1M Output-Tokens
  • GPT-4o-mini: $0,15/1M Input-Tokens, $0,60/1M Output-Tokens

Berechnung GPT-4o: ~$175/Monat Berechnung GPT-4o-mini: ~$10/Monat

Die Qualitaetsdifferenz für strukturierte Support-Antworten? Oft minimal — weil der Context (FAQ-Datenbank) die schwere Arbeit macht, nicht das Modell.

Wie wuerdest Du entscheiden?

Die beste Entscheidung in diesem Szenario: Starte mit GPT-4o-mini + guter FAQ-Datenbank (RAG). Miss die Antwortqualitaet. Eskaliere nur die Faelle zu einem groesseren Modell, wo die Qualität nicht reicht.

Warum:

  • 55x guenstiger bei oft vergleichbarer Qualität für strukturierte Antworten
  • Du kannst später upgraden — Du kannst schwer zurück
  • Die FAQ-Datenbank (Context) hat mehr Einfluss auf die Qualität als die Modellgroesse
  • Routing (einfache Fragen → kleines Modell, komplexe → grosses) ist ein etabliertes Pattern

Was viele falsch machen: Das größte Modell nehmen “um sicherzugehen” und dann ueberrascht sein, wenn die Kosten bei Scale explodieren.

Die wichtigste Erkenntnis aus dieser Lektion: LLMs sind Wahrscheinlichkeitsmaschinen, keine Wissensmaschinen. Diese Unterscheidung bestimmt, wie Du AI-Features designst:

  • Erwarte keine perfekte Genauigkeit — designe für Ungenauigkeit
  • Gib dem Modell guten Context statt auf ein besseres Modell zu hoffen
  • Rechne in Tokens, nicht in Woertern

Quellen: Anthropic Documentation (2025), OpenAI Pricing (2025), Chip Huyen “Designing Machine Learning Systems” (O’Reilly, 2022)

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn