Datenqualität beschäftigt zunehmend mehr Unternehmen. Ob Multikanal-Erlebnis, System-Migration, Business Intelligence oder Data Science: Viele Vorhaben und Bereiche sind von einer hohen Qualität von Daten abhängig. Dass die Qualität von Daten immer mehr in den Vordergrund rückt ist sehr einfach zu begründen: Indem immer mehr Daten existieren und vor allem immer mehr Daten eingesetzt werden, begegnet man dabei immer mehr Problemen.
Warum ist eine hohe Datenqualität wichtig?
Dass eine Datenqualität zentral für viele Vorhaben ist spüren inzwischen viele Unternehmen sehr ungefiltert. Doch was sind die häufigsten Probleme mit einer schlechten Datenqualität? Hier ein paar Beispiele:
- Inkonsistenz zwischen Kanälen: Jedes Unternehmen möchte Stammdaten über verschieden Kanäle hinweg konsistent bereit stellen. Vor allem Kunden finden Anstoss daran, wenn sie verschieden Informationen oder Medien von den gleichen Produkt sehen.
- Migration und Integration von Systemen: Möchte man ein neues System einführen (z.B. CRM oder PIM) oder Daten aus einem System in anderes integrieren, fallen Inkonsistenzen sehr schnell auf und erschaffen erheblichen Mehrwert.
- Business Intelligence und Reporting: Die “Ground Truth” für viele Daten ist die Konsolidierung im Data Warehouse (DWH). Und schnell gibt es massive Probleme im Verständnis und der Korrektur.
- Datenanalysen und maschinelles Lernen: Während im Bereich Reporting Daten strukturiert vorhanden sind, kommt bei Analysen und Data Science schnell eine weitere Dimension dazu. Unstrukturierte, unvollständige, neu akquirierte Daten: Mit den neuen Möglichkeiten kommen neue Herausforderungen.
Die Probleme auf dem Weg zur höheren Qualität
Wäre es einfach, eine hohe Datenqualität zu erreichen, würde es jeder einfach tun. Doch dabei tun sich viele Unternehmen schwer. Nicht verwunderlich, denn nicht nur die Qualität an sich ist eine Herausforderung, sondern alleine zu wissen welche Datenqualität vorliegt und wie man sie verbessert bergen große Fallen:
- Varianz an Daten: Eines der Hauptprobleme in der Handhabung von Datenqualität ist die hohe Bandbreite an verschiedenen Daten. Für ein Unternehmen ein Kampf gegen Windmühlen, ständig mit neuen Strukturen, Inhalten und Formaten zu arbeiten.
- Menge an Daten: Der zweite Faktor neben einer hohen Varianz ist die hohe Menge innerhalb eines Datensatzes, als auch Anzahl an Datenquellen selbst. Folglich muss jede Quelle dokumentiert und jedes Attribut innerhalb jeder Datenquelle analysiert werden.
- Prozesse zur Verbesserung: Selbst wenn man identifiziert hat, welche Qualitätsfaktoren erhöht werden müssen, sind die realen Prozesse meist sehr schwierig umzusetzen. Es sind Menschen, Systeme und Abläufe involviert und müssen verändert werden, um die Anforderungen abzudecken.
- Unklare Verantwortlichkeiten: Zusätzlich gibt es selten in einem Unternehmen eine ganz klare Verantwortlichkeit für die Themen Data Governance und Datenqualität mit entsprechender Befugnis und Kapazität. Das verlangsamt die Fortschritte zunehmend.
- Komplexität der Analyse: Als letztes Problem ist noch die Komplexität der eigentlichen Analysen aufzuführen. Completeness, Validity, Variance, Consistency und mehr sind die vielen Faktoren die Datenqualität bestimmen. Dies verlangt nach viel Forschung, Planung, Umsetzung und Interpretation.
Künstliche Intelligenz im Einsatz für eine bessere Datenqualität: Beispiele
Wenn man die Probleme auf dem Weg zu einer besseren Datenqualität betrachtet, versteht man schnell die Schwierigkeit des Themas. Um dennoch Fortschritte zu machen, möchten wir drei Beispiele präsentieren, wie KI zu höherer Qualität verhelfen kann.
Automatisierte Analyse der Datenqualität
Ein erster Schritt, um das Thema Datenqualität unter Kontrolle zu bringen, ist das Wissen wie der Status der verschiedenen Quellen ist. Hierzu eignet sich eine KI-basierte automatisierte Analyse, die verschiedene Datenqualitätsfaktoren wie Vollständigkeit, Validität, Konsistenz, Redundanz, Duplikate und ähnliches auswertet.
Die Automatisierung mittels künstlicher Intelligenz vermeidet somit die Probleme wie Komplexität, Prozesse und geht effizient mit der Varianz an Datenquellen um. Das resultierende Wissen erlaubt es, genauer zu definieren was die nächsten notwendigen Schritte sind.
Prüfung auf personenbezogene Daten (PII)
Ein anderer wichtiger Schritt im Bezug auf Datenqualität und Data Governance ist das Wissen, welche Daten vorhanden sind. Vor allem seit Einführung der DSGVO ist es von hoher Relevanz genau zu wissen, wo sich personenbezogene Daten im Unternehmen befinden.
Hier hilft der Einsatz von natürlicher Sprachverarbeitung (engl. Natural Language Processing, NLP). Dieses Gebiet der künstlichen Intelligenz ist imstande, aus Text-Inhalten relevante Datenbausteine zu extrahieren. Somit ist es ein einfaches, auch unbekannte Datensätze schnell und verlässlich auf Dateninhalte zu prüfen und ggf. datenschutzrechtliche Relevanz festzustellen.
Vorhersage von schlechter Datenqualität
Als drittes Beispiel für KI im Einsatz für eine bessere Datenqualität kann die Vorhersage von schlechten Einträgen genannt werden. Indem man ein statistisches Modell trainiert, das zwischen guter und schlechter Datenqualität unterscheiden kann, kann man auch zukünftige Einträge einsortieren.
Der Einsatz kann sowohl kontinuierlich in einem Stammdatensystem wie CRM, PIM, MDM eingesetzt werden, aber auch Ad-Hoc Analysen bei denen ein Auszug aller neuer Einträge analysiert wird, sind vorstellbar.
KI in der Datenqualität: Sinnvoll oder Hype?
Selbstverständlich muss man sich die Frage stellen, ob künstliche Intelligenz direkten Mehrwert im Bereich Datenqualität liefern kann. Doch wir sehen ganz klare Anwendungsfälle wie vor allem Effizienz gesteigert werden kann. Eine automatische Vorab-Analyse erlaubt es, die Qualität abzuschätzen, während kontinuierliche Qualitätsvorhersagen verhindern, dass schlechte Einträge überhaupt erst entstehen.
Doch nur die Kombination von Algorithmen zur Vorbereitung und menschlicher Expertise zur Überprüfung wird langfristig den Weg zu guter Datenqualität ebnen. Daher empfehlen wir schnell und einfach mit Datenqualitätsanalysen zu starten um das Thema zu etablieren, aber nachfolgend Data Governance Verantwortlichkeit und Prozesse aufzubauen.