Zum Inhalt springen
EN DE

Data Quality & Governance

Euer AI-gestützter Helpdesk-Bot ist seit zwei Monaten live. Die Accuracy war beim Launch bei 88%. Jetzt liegt sie bei 71%. Das Engineering-Team hat nichts am Modell oder Prompt geaendert. Was ist passiert?

Die Antwort: Eure Wissensdatenbank. Drei Produktseiten wurden aktualisiert, aber die alten Versionen sind noch im Index. Zwei Policy-Dokumente widersprechen sich. Und seit dem Launch wurden 40 neue FAQ-Eintraege hinzugefuegt — ohne Qualitaetspruefung.

In traditioneller Software beeinflusst Datenqualitaet Reports und Analytics. Bei AI-Produkten beeinflusst Datenqualitaet direkt die Produktqualitaet. Schlechte Daten rein, schlechte AI-Outputs raus, schlechte User Experience.

1. Training/Fine-Tuning Data Quality

  • Betrifft: Custom Models und Fine-Tuning
  • Probleme: Falsch gelabelte Daten, biased Samples, veraltete Informationen
  • Impact: Modell lernt falsche Muster, performt schlecht bei unterrepraesentierten Faellen

2. Context Data Quality (RAG/Knowledge Base)

  • Betrifft: RAG-basierte Produkte
  • Probleme: Veraltete Dokumente, widerspruechliche Informationen, schlechtes Chunking, fehlende Metadaten
  • Impact: AI gibt veraltete Antworten, zitiert irrelevante Quellen, Hallucinations steigen

3. User Input Data Quality

  • Betrifft: Alle AI-Produkte
  • Probleme: Mehrdeutige Anfragen, adversarielle Inputs, Out-of-Scope Requests
  • Impact: Schlechte Antworten, Safety-Verletzungen, verschwendete Compute-Ressourcen

Jede Schicht haengt von den darunterliegenden ab:

SchichtFragePriorität
VerfuegbarkeitKann die AI zur Inference-Zeit auf die Daten zugreifen?Grundvoraussetzung
AccuracySind die Daten faktisch korrekt?Hoch — Fehler propagieren in jeden Output
ConsistencyGibt es Widersprueche zwischen Quellen?Hoch — AI kann nicht entscheiden, welche Quelle stimmt
CompletenessDecken die Daten alle relevanten Faelle ab?Mittel — fehlende Abdeckung fuehrt zu Hallucinations
FreshnessSind die Daten aktuell?Mittel — veraltete Daten degradieren über Zeit

Es bringt nichts, Freshness zu optimieren, wenn die Daten inaccurate sind.

Data Governance definiert, wer welche Daten wie und unter welchen Constraints nutzen darf. Für AI-Produkte ist das kritisch:

FrageWarum sie wichtig ist
Woher kommen unsere Trainingsdaten?Rechtliches Risiko, Bias-Risiko
Werden Nutzerdaten an Drittanbieter-APIs gesendet?Privacy, Compliance
Trainiert der Model Provider mit unseren Daten?IP-Schutz, Wettbewerbsrisiko
Wie gehen wir mit PII in AI-Kontexten um?GDPR, CCPA Compliance
Wer genehmigt Aenderungen an Trainingsdaten?Qualitaetskontrolle, Accountability
  1. Document Freshness Policy: Definiere wie oft Knowledge-Base-Dokumente reviewed und aktualisiert werden. Veraltete Dokumente sind die #1 Ursache für falsche RAG-Antworten.
  2. Chunking-Strategie: Wie Dokumente in Chunks aufgeteilt werden, beeinflusst direkt die Antwortqualitaet. Schlechtes Chunking fuehrt zu schlechtem Retrieval fuehrt zu Hallucinations.
  3. Metadata Enrichment: Datum, Autor, Thema und Zuverlaessigkeitsbewertung zu Dokumenten hinzufuegen verbessert Retrieval-Qualität und Source Attribution.
  4. Widerspruchserkennung: Wenn mehrere Dokumente widerspruechliche Informationen liefern, braucht das Produkt eine Policy welche Quelle Vorrang hat.

Das “Garbage In, Garbage Out”-Problem wird bei AI-Produkten verstaerkt:

  • AI laesst Fehler autoritativ aussehen (selbstsichere falsche Antworten)
  • Nutzer prüfen AI-Outputs oft nicht, Fehler propagieren downstream
  • Scale bedeutet: ein kleines Datenqualitaetsproblem betrifft Tausende Nutzer
  • Feedback Loops: Wenn Nutzer falsche AI-Antworten akzeptieren und diese zurück ins System fliessen, degradiert Qualität über Zeit

Data Quality Investment nach Produkttyp:

ProdukttypPrimaerer FokusSekundaerer Fokus
RAG-ProduktKnowledge Base Quality (Freshness, Chunking, Dedup)User Input Handling
Fine-Tuned ModelTraining Data Quality, Bias AuditingOutput Governance
API-only (kein RAG, kein Fine-Tuning)User Input Handling, Output GovernanceData Flow Documentation

Immer: Datenfluss verstehen (was geht wohin), DPAs mit Providern haben, verantwortungsvoll loggen.

Du bist PM eines internen AI-Assistenten für eine Versicherung. Der Bot beantwortet Mitarbeiterfragen zu Policen und Prozessen. 2.000 Anfragen pro Woche. RAG-basiert mit 5.000 Dokumenten in der Knowledge Base.

Aktuelle Situation:

  • 60% der “schlechten Antworten” (User Thumbs Down) betreffen Informationen aus Dokumenten, die aelter als 6 Monate sind
  • 15% der Fehler kommen von widerspruechlichen Dokumenten (alte Policy vs. neue Policy, beide im Index)
  • Das Compliance-Team fragt: “Werden Mitarbeiterfragen zu Kundendaten an OpenAI gesendet?”
  • Budget für Datenqualitaet: 2 Personentage pro Monat
  • Der Engineering Lead schlägt vor: “Wir brauchen ein besseres Modell”
Wie wuerdest Du entscheiden?

Die beste Entscheidung: Datenqualitaet priorisieren, nicht Modell-Upgrade. 75% der Fehler sind auf veraltete oder widerspruechliche Dokumente zurueckzufuehren.

Konkrete Massnahmen:

  1. Sofort: Document Freshness Policy einfuehren — alle Dokumente aelter als 6 Monate reviewen, veraltete entfernen oder aktualisieren
  2. Sofort: Widerspruchserkennung — wenn zwei Dokumente zum gleichen Thema existieren, das neuere priorisieren und das alte archivieren
  3. Compliance klären: Pruefen ob PII in Anfragen an die API gesendet wird. DPA mit dem Model Provider bestaetigen. Ggf. PII-Filter vor dem API-Call einbauen
  4. Monatlich: 2 Personentage für Knowledge-Base-Hygiene nutzen — Review, Dedup, Freshness Check

Warum nicht das Modell upgraden:

  • 75% der Fehler sind Datenprobleme — ein besseres Modell loest die nicht
  • Erfahrungsberichte aus der LangChain- und LlamaIndex-Community (2024-2025) deuten darauf hin, dass 60-80% der RAG-Qualitaetsprobleme Knowledge-Base-Probleme sind — nicht Modell-Probleme. Diese Schätzung basiert auf Erfahrungsberichten aus der Practitioner-Community, nicht auf einer formalen Studie.
  • Ein Modell-Upgrade ohne Datenbereinigung verbessert die Metriken minimal

Was viele falsch machen: Datenqualitaet als Engineering-Problem abtun und auf ein besseres Modell hoffen.

Bei RAG-Produkten ist Data Quality gleich Product Quality — das Modell ist nur so gut wie die Daten, die es abrufen kann.

  • Laut Erfahrungsberichten aus der LangChain- und LlamaIndex-Community gehen 60-80% der Qualitaetsprobleme bei RAG-Produkten auf die Knowledge Base zurück, nicht auf das Modell. Diese Schätzung basiert auf Practitioner-Erfahrungen, nicht auf einer formalen Studie.
  • Data Governance ist kein Nice-to-have: PII in API-Calls, Trainingsdaten-Nutzung und Datenloeschungsrechte sind reale Compliance-Risiken
  • Document Freshness ist die einfachste und wirkungsvollste Massnahme für RAG-Qualität

Quellen: Samsung ChatGPT Data Leak (Bloomberg/Reuters, 2023), GDPR & AI Right to Erasure — Legal Analyses, LangChain Community RAG Quality Reports, Anthropic/OpenAI/Google API Data Usage Policies

Part of AI Learning — free courses from prompt to production. Jan on LinkedIn