Wie LLMs denken

Context

Dein CEO kommt aus einem Meeting und sagt: “Wir müssen AI in unser Produkt einbauen.” Dein Engineering-Team redet über Tokens, Temperature und Hallucinations. Dein Designer fragt, ob der Chatbot eine Persoenlichkeit braucht.

Du bist der Product Manager. Du musst nicht wissen, wie man ein LLM trainiert. Aber Du musst verstehen, was es tut — gut genug, um die richtigen Fragen zu stellen und die falschen Versprechungen zu erkennen.

Concept

Ein Large Language Model ist eine Wahrscheinlichkeitsmaschine für Text. Gegeben eine Eingabe (Prompt), berechnet es die wahrscheinlichste Fortsetzung — Token für Token.

Was ein Token ist

Ein Token ist nicht ein Wort. Es ist ein Textstueck, das das Modell als Einheit verarbeitet. “Produktmanagement” könnte 2-3 Tokens sein. “AI” ist einer. Die Tokenisierung bestimmt, wie das Modell Sprache “sieht”.

Warum das für Dich relevant ist:

Tokens bestimmen die Kosten (Du zahlst pro Token)
Tokens bestimmen das Limit (Context Window = max. Tokens pro Anfrage)
Tokens bestimmen die Geschwindigkeit (mehr Tokens = laengere Antwortzeit)

Wie ein LLM “antwortet”

Das Modell sieht Deinen Prompt und berechnet: Welches Token kommt am wahrscheinlichsten als naechstes? Dann nimmt es dieses Token, fuegt es an, und berechnet das nächste. Und so weiter.

Das bedeutet:

Das Modell plant nicht. Es generiert sequenziell.
Das Modell weiss nichts. Es hat statistische Muster gelernt.
Das Modell entscheidet nicht. Es sampelt aus Wahrscheinlichkeitsverteilungen (bei Temperature 0 wird deterministisch das wahrscheinlichste Token gewaehlt).

Temperature

Die Temperature steuert, wie “kreativ” das Modell antwortet:

Temperature	Verhalten	Einsatz
0.0	Immer das wahrscheinlichste Token	Fakten-Extraktion, Klassifizierung
0.3–0.7	Leichte Variation	Die meisten Produktanwendungen
1.0+	Hohe Zufaelligkeit	Kreatives Schreiben, Brainstorming

Hallucinations

Wenn ein LLM etwas “erfindet”, ist das keine Fehlfunktion — es ist das Modell, das tut was es immer tut: die wahrscheinlichste Fortsetzung generieren. Manchmal ist die wahrscheinlichste Fortsetzung faktisch falsch.

“Hallucinations sind kein Bug. Sie sind eine inhärente Eigenschaft von Systemen, die auf Wahrscheinlichkeit basieren — reduzierbar, aber nicht vollständig eliminierbar.”

Framework

Das Token-Kosten-Qualität-Dreieck — drei Variablen, die Du bei jeder AI-Produktentscheidung abwaegen musst:

Variable	Stellschraube	Tradeoff
Qualität	Groesseres Modell, mehr Context	Hohere Kosten, langsamere Antwort
Kosten	Kleineres Modell, weniger Tokens	Geringere Qualität
Geschwindigkeit	Streaming, kleineres Modell	Potentiell geringere Qualität

Du kannst nicht alle drei gleichzeitig maximieren. Deine Aufgabe als PM: Entscheiden, welche Variable für Dein Produkt am wichtigsten ist.

Scenario

Du baust ein Kunden-Support-Tool. Der Bot soll haeufige Fragen beantworten — Retouren, Lieferstatus, Produktinfos. Dein Engineering-Team schlägt GPT-4 vor. Dein CFO will die Kosten niedrig halten.

Die Situation:

50.000 Kundenanfragen pro Monat
Durchschnittlich 200 Tokens Input + 300 Tokens Output pro Anfrage
GPT-4o: $2,50/1M Input-Tokens, $10/1M Output-Tokens
GPT-4o-mini: $0,15/1M Input-Tokens, $0,60/1M Output-Tokens

Berechnung GPT-4o: ~$175/Monat Berechnung GPT-4o-mini: ~$10/Monat

Die Qualitaetsdifferenz für strukturierte Support-Antworten? Oft minimal — weil der Context (FAQ-Datenbank) die schwere Arbeit macht, nicht das Modell.

Decide

Wie wuerdest Du entscheiden?

Die beste Entscheidung in diesem Szenario: Starte mit GPT-4o-mini + guter FAQ-Datenbank (RAG). Miss die Antwortqualitaet. Eskaliere nur die Faelle zu einem groesseren Modell, wo die Qualität nicht reicht.

Warum:

55x guenstiger bei oft vergleichbarer Qualität für strukturierte Antworten
Du kannst später upgraden — Du kannst schwer zurück
Die FAQ-Datenbank (Context) hat mehr Einfluss auf die Qualität als die Modellgroesse
Routing (einfache Fragen → kleines Modell, komplexe → grosses) ist ein etabliertes Pattern

Was viele falsch machen: Das größte Modell nehmen “um sicherzugehen” und dann ueberrascht sein, wenn die Kosten bei Scale explodieren.

Reflect

Die wichtigste Erkenntnis aus dieser Lektion: LLMs sind Wahrscheinlichkeitsmaschinen, keine Wissensmaschinen. Diese Unterscheidung bestimmt, wie Du AI-Features designst:

Erwarte keine perfekte Genauigkeit — designe für Ungenauigkeit
Gib dem Modell guten Context statt auf ein besseres Modell zu hoffen
Rechne in Tokens, nicht in Woertern

Quellen: Anthropic Documentation (2025), OpenAI Pricing (2025), Chip Huyen “Designing Machine Learning Systems” (O’Reilly, 2022)