Data Quality & Governance

Context

Euer AI-gestützter Helpdesk-Bot ist seit zwei Monaten live. Die Accuracy war beim Launch bei 88%. Jetzt liegt sie bei 71%. Das Engineering-Team hat nichts am Modell oder Prompt geaendert. Was ist passiert?

Die Antwort: Eure Wissensdatenbank. Drei Produktseiten wurden aktualisiert, aber die alten Versionen sind noch im Index. Zwei Policy-Dokumente widersprechen sich. Und seit dem Launch wurden 40 neue FAQ-Eintraege hinzugefuegt — ohne Qualitaetspruefung.

In traditioneller Software beeinflusst Datenqualitaet Reports und Analytics. Bei AI-Produkten beeinflusst Datenqualitaet direkt die Produktqualitaet. Schlechte Daten rein, schlechte AI-Outputs raus, schlechte User Experience.

Concept

Drei Arten von Datenqualitaetsproblemen

1. Training/Fine-Tuning Data Quality

Betrifft: Custom Models und Fine-Tuning
Probleme: Falsch gelabelte Daten, biased Samples, veraltete Informationen
Impact: Modell lernt falsche Muster, performt schlecht bei unterrepraesentierten Faellen

2. Context Data Quality (RAG/Knowledge Base)

Betrifft: RAG-basierte Produkte
Probleme: Veraltete Dokumente, widerspruechliche Informationen, schlechtes Chunking, fehlende Metadaten
Impact: AI gibt veraltete Antworten, zitiert irrelevante Quellen, Hallucinations steigen

3. User Input Data Quality

Betrifft: Alle AI-Produkte
Probleme: Mehrdeutige Anfragen, adversarielle Inputs, Out-of-Scope Requests
Impact: Schlechte Antworten, Safety-Verletzungen, verschwendete Compute-Ressourcen

Die Datenqualitaets-Pyramide

Jede Schicht haengt von den darunterliegenden ab:

Schicht	Frage	Priorität
Verfuegbarkeit	Kann die AI zur Inference-Zeit auf die Daten zugreifen?	Grundvoraussetzung
Accuracy	Sind die Daten faktisch korrekt?	Hoch — Fehler propagieren in jeden Output
Consistency	Gibt es Widersprueche zwischen Quellen?	Hoch — AI kann nicht entscheiden, welche Quelle stimmt
Completeness	Decken die Daten alle relevanten Faelle ab?	Mittel — fehlende Abdeckung fuehrt zu Hallucinations
Freshness	Sind die Daten aktuell?	Mittel — veraltete Daten degradieren über Zeit

Es bringt nichts, Freshness zu optimieren, wenn die Daten inaccurate sind.

Data Governance für AI-Produkte

Data Governance definiert, wer welche Daten wie und unter welchen Constraints nutzen darf. Für AI-Produkte ist das kritisch:

Frage	Warum sie wichtig ist
Woher kommen unsere Trainingsdaten?	Rechtliches Risiko, Bias-Risiko
Werden Nutzerdaten an Drittanbieter-APIs gesendet?	Privacy, Compliance
Trainiert der Model Provider mit unseren Daten?	IP-Schutz, Wettbewerbsrisiko
Wie gehen wir mit PII in AI-Kontexten um?	GDPR, CCPA Compliance
Wer genehmigt Aenderungen an Trainingsdaten?	Qualitaetskontrolle, Accountability

Praktische Massnahmen für RAG-Produkte

Document Freshness Policy: Definiere wie oft Knowledge-Base-Dokumente reviewed und aktualisiert werden. Veraltete Dokumente sind die #1 Ursache für falsche RAG-Antworten.
Chunking-Strategie: Wie Dokumente in Chunks aufgeteilt werden, beeinflusst direkt die Antwortqualitaet. Schlechtes Chunking fuehrt zu schlechtem Retrieval fuehrt zu Hallucinations.
Metadata Enrichment: Datum, Autor, Thema und Zuverlaessigkeitsbewertung zu Dokumenten hinzufuegen verbessert Retrieval-Qualität und Source Attribution.
Widerspruchserkennung: Wenn mehrere Dokumente widerspruechliche Informationen liefern, braucht das Produkt eine Policy welche Quelle Vorrang hat.

GIGO im AI-Kontext

Das “Garbage In, Garbage Out”-Problem wird bei AI-Produkten verstaerkt:

AI laesst Fehler autoritativ aussehen (selbstsichere falsche Antworten)
Nutzer prüfen AI-Outputs oft nicht, Fehler propagieren downstream
Scale bedeutet: ein kleines Datenqualitaetsproblem betrifft Tausende Nutzer
Feedback Loops: Wenn Nutzer falsche AI-Antworten akzeptieren und diese zurück ins System fliessen, degradiert Qualität über Zeit

Framework

Data Quality Investment nach Produkttyp:

Produkttyp	Primaerer Fokus	Sekundaerer Fokus
RAG-Produkt	Knowledge Base Quality (Freshness, Chunking, Dedup)	User Input Handling
Fine-Tuned Model	Training Data Quality, Bias Auditing	Output Governance
API-only (kein RAG, kein Fine-Tuning)	User Input Handling, Output Governance	Data Flow Documentation

Immer: Datenfluss verstehen (was geht wohin), DPAs mit Providern haben, verantwortungsvoll loggen.

Scenario

Du bist PM eines internen AI-Assistenten für eine Versicherung. Der Bot beantwortet Mitarbeiterfragen zu Policen und Prozessen. 2.000 Anfragen pro Woche. RAG-basiert mit 5.000 Dokumenten in der Knowledge Base.

Aktuelle Situation:

60% der “schlechten Antworten” (User Thumbs Down) betreffen Informationen aus Dokumenten, die aelter als 6 Monate sind
15% der Fehler kommen von widerspruechlichen Dokumenten (alte Policy vs. neue Policy, beide im Index)
Das Compliance-Team fragt: “Werden Mitarbeiterfragen zu Kundendaten an OpenAI gesendet?”
Budget für Datenqualitaet: 2 Personentage pro Monat
Der Engineering Lead schlägt vor: “Wir brauchen ein besseres Modell”

Decide

Wie wuerdest Du entscheiden?

Die beste Entscheidung: Datenqualitaet priorisieren, nicht Modell-Upgrade. 75% der Fehler sind auf veraltete oder widerspruechliche Dokumente zurueckzufuehren.

Konkrete Massnahmen:

Sofort: Document Freshness Policy einfuehren — alle Dokumente aelter als 6 Monate reviewen, veraltete entfernen oder aktualisieren
Sofort: Widerspruchserkennung — wenn zwei Dokumente zum gleichen Thema existieren, das neuere priorisieren und das alte archivieren
Compliance klären: Pruefen ob PII in Anfragen an die API gesendet wird. DPA mit dem Model Provider bestaetigen. Ggf. PII-Filter vor dem API-Call einbauen
Monatlich: 2 Personentage für Knowledge-Base-Hygiene nutzen — Review, Dedup, Freshness Check

Warum nicht das Modell upgraden:

75% der Fehler sind Datenprobleme — ein besseres Modell loest die nicht
Erfahrungsberichte aus der LangChain- und LlamaIndex-Community (2024-2025) deuten darauf hin, dass 60-80% der RAG-Qualitaetsprobleme Knowledge-Base-Probleme sind — nicht Modell-Probleme. Diese Schätzung basiert auf Erfahrungsberichten aus der Practitioner-Community, nicht auf einer formalen Studie.
Ein Modell-Upgrade ohne Datenbereinigung verbessert die Metriken minimal

Was viele falsch machen: Datenqualitaet als Engineering-Problem abtun und auf ein besseres Modell hoffen.

Reflect

Bei RAG-Produkten ist Data Quality gleich Product Quality — das Modell ist nur so gut wie die Daten, die es abrufen kann.

Laut Erfahrungsberichten aus der LangChain- und LlamaIndex-Community gehen 60-80% der Qualitaetsprobleme bei RAG-Produkten auf die Knowledge Base zurück, nicht auf das Modell. Diese Schätzung basiert auf Practitioner-Erfahrungen, nicht auf einer formalen Studie.
Data Governance ist kein Nice-to-have: PII in API-Calls, Trainingsdaten-Nutzung und Datenloeschungsrechte sind reale Compliance-Risiken
Document Freshness ist die einfachste und wirkungsvollste Massnahme für RAG-Qualität

Quellen: Samsung ChatGPT Data Leak (Bloomberg/Reuters, 2023), GDPR & AI Right to Erasure — Legal Analyses, LangChain Community RAG Quality Reports, Anthropic/OpenAI/Google API Data Usage Policies