Datenqualität einfach messen und steigern

Mit mehr Datenanalysen merken viele Unternehmen, dass sie erst ihre Datenqualität messen müssen, um verlässliche Ergebnisse zu kommen. Vor allem im Bereich Advanced Analytics, also der Anwendung von maschinellen Lernen, spielt die Qualität der Daten eine hohe Rolle. In diesem Artikel möchten wir auf Details eingehen, weshalb Datenqualität wichtig ist, wie man sie messen und steigern kann.

Warum ist Datenqualität wichtig?

Interne Faktoren

Interne Faktoren zielen auf eine verbesserte Datennutzung innerhalb des Unternehmens ab. Dazu gehören:

  • Verlässliche Datenanalysen: Nur mit einer hohen Qualität können Daten auch in Analysen, wie der Business Intelligence oder im Machine Learning verlässlich eingesetzt werden.
  • Bessere Cross-System Integration: Nur wenn Daten über Systeme hinweg verlässlich repliziert oder verbindbar sind, können sie auch in verschiedenen Systemen vernünftig eingesetzt werden.
  • Verlust von Umsatz: Schlechte Datenqualität führt zu schlechten Entscheidungen und – teilweise – zum Ausfall von Modulen oder ganzen Systemen. Folglich sind Umsatzeinbußen die Folge.

Externe Faktoren

Wenn Datenqualität auch einen schlechten Eindruck oder eine negative Auswirkung auf Kunden, Lieferanten oder Bewerber hat, spricht man von externen Faktoren. Externe Datenqualitätsauswirkungen sind unter anderem:  

  • Multichannel-Information: Jedes Unternehmen hat viele Kanäle, wie e-Commerce, social media, Lieferantenportal, etc. Gemein ist ihnen, dass sie oft auf die gleichen Daten zugreifen: zum Beispiele Kundendaten (CRM) und Produktdaten (PIM). 
  • Image-Schaden: Wenn inkohärente oder sogar falsche Daten nach außen gelangen, kann dies schnell zu einem Imageschaden führen. Ob enttäuschte Kunden, mangelnde Sorgfalt oder sogar rechtliche Folgen: eine niedrige Datenqualität ist schwierig zu verargumentieren.
  • Compliance: Letztlich aber definitiv eine der kritischsten Folgen bei schlechter Datenqualität können Verstöße gegen geltende rechtliche Vorgaben sein. Alleine beim Thema Datenschutz, insbesondere bei der DSGVO, drohen hohe Strafen.

Welche Dimensionen spielen eine Rolle?

Es gibt eine ganze Reihe von Dimensionen anhand denen Datenqualität gemessen werden kann. Hier stellen wir kurz auf die wichtigsten ein:

  • Completeness (Vollständigkeit): Fehlende Werte verursachen oft massive Probleme und erfordern spezielle zusätzliche Sicherheitsabfragen in der Datenabfrage und -analyse. Daher ist Vollständigkeit eine der ersten, aber auch eine der wichtigsten Dimensionen wie man Datenqualität messen kann. 
  • Validity (Validität): Natürlich müssen Werte nicht nur befüllt sein, sondern auch die Inhalte müssen korrekt und an die erwarteten Werte angepasst sein. 
  • Duplicates (Duplikate): Wer es übertreibt mit der Vollständigkeit kann in Versuchung kommen, Daten mit minimalen Abweichungen doppelt zu erfassen. Die Ursache sind oft verschiedene Systeme die in die gleiche Datenbank schreiben oder keine Input-Prüfung stattfindet.
  • Redundancy (Redundanz): Während Duplikate klar identifizierbar sind, beziehen sich Redundanzen auf sehr ähnliche Attribute. Wenn zwei Attribute perfekt korrelieren, kann man auf Datensparsamkeit achten und eines davon entfernen.

Das sind grundlegende Dimensionen anhand denen man Datenqualität messen kann. Für Details, besucht den Artikel “Die Bedeutung von Datenqualität für Unternehmen” von datadrivencompany.de.

Wie kann man Datenqualität messen?

Manuelle Messung

Wenn ein Unternehmen Datenanalysten oder Datenwissenschaftlicher in den eigenen Reihen hat, wird diesen mitunter als erstes Probleme mit Datenqualität auffallen. Dies geschieht während der Vorbereitung von Daten zur Analyse oder zum maschinellen Lernen.

Daher ist es immer möglich, einen Datensatz manuell auf die verschiedenen Dimensionen zu analysieren. Das Problem ist selbstverständlich, dass es händische Arbeit ist, die auch bei viele unterschiedlichen Datensätzen wieder neu adaptiert werden muss.

Automatische Messung

Wer keine Datenexperten im Unternehmen beschäftigt oder diese keine Kapazität haben, kann auf automatische Datenqualitätsanalysen zugreifen. Hierbei wird Wert darauf gelegt, dass die Messung der Qualität möglichst einfach geschieht und auf so ziemlich alle Datenquellen angewandt werden kann.

Ein Nachteil ist, dass nur gewisse Dimensionen (wie z.B. Vollständigkeit, Validität, Duplikate, Einzigartigkeit, Redundanz) analysiert werden können. Doch als Startpunkt um zu erfahren, wo man zur Verbesserung der Datenqualität ansetzen muss, ist dies sehr hilfreich.

Kontinuierliche Messung

Generell sollte sich die Datenqualität in einzelnen Quellen nicht schlagartig verschlechtern. Arbeitet man aktiv mit manuellen oder automatischen Messungen daran, verbessert sich die Qualität normalerweise auch über die Zeit.

Möchte man dennoch eine kontinuierliche Datenqualitätsmessung etablieren, lohnt sich die Eigenimplementierung von Qualitätsmetriken (z.B. bestimmte Inhalte in bestimmten Attributen) und die Überwachung via ein Dashboard.

Weiterhin gibt es manche Softwarelösungen (z.B. Informatica), die eine solche Funktionalität bereits mitbringen. Diese sind jedoch meist eher auf sehr große Unternehmen ausgerichtet.

Das Ziel: Steigerung der Datenqualität

Egal welchen Weg man wählt, alleine dass man sich mit Datenqualität im Unternehmen beschäftigt ist bereits von hohem Wert. Das Ziel aller Initiativen muss das gleiche sein: Eine kontinuierliche Analyse und Steigerung der Qualität. Denn nur wer eine saubere Basis erschafft, kann darauf ein stabiles Konstrukt aus Analysen und Data Science errichten.