Was ist Big Data Veracity? Definition und Beispiele

Veracity ist eine Ausprägung der 5 Vs von Big Data und steht für die (Un-)Sicherheit der vorliegenden Daten. Sie ist entscheidend um zu definieren, ob man Daten in Herkunft und Inhalt vertrauen kann. Neben anderen Big Data Metriken wie Volumen, Velocity, Variety und Value ist sie zentral für einen nachhaltigen Einsatz von Daten.

Inhaltsverzeichnis

Die 5 Vs der Big Data Definition

Die fünf Vs von Big Data haben sich aus ursprünglich 3 Vs entwickelt. Als initiale Definition von Big Data steht auch der Name: Das Volumen. 

Das Volumen von Daten spielt eine Rolle, da es mitunter der erste limitierende Faktor war: Daten konnten nicht mehr lokal auf einem Computer verarbeitet werden, sondern mussten auf Servern bzw. später verteilten Systemen verarbeitet werden.

Das zweite V ist Velocity – die Geschwindigkeit, mit der Daten generiert werden. Dies hat zwei primäre Auswirkungen: Einerseits ändert sich die zu analysierende Datenbasis kontinuierlich, andererseits müssen diese generierten Daten auch systemtechnisch erfasst werden, was nicht selbstverständlich war oder ist.

Das dritte V ist Variety, also die Variabilität der Datentypen. Hier wird neben strukturierten Daten (z.B. relationale Datenbanken) vor allem auf unstrukturierte Daten (z.B. Bilder, Audio, PDFs) angespielt. Diese Daten zu speichern, zu dokumentieren und vor allem zu analysieren hat neue Herausforderungen aufgeworfen.

Das vierte V ist die Veracity und kam hinzu, um die Qualität von Daten in Frage zu stellen. Die genauere Definition treffen wir im nachfolgenden Abschnitt.

Das fünfte V ist das Value, also der Wert der erfassten Daten. Dies hat nur noch bedingt mit “Big” Data zu tun, sondern gilt umfassend für alle gespeicherten Daten. Nur Daten, die auch sinnvoll zu nutzen sind, bringen dem Unternehmen Vorteile.

Das sechste V, das zusätzlich erfasst wurde, deckt die Variabilität von Daten ab. Die Variability zielt vor allem auf zeitlich sich ändernde Daten ab – wie zum Beispiel sich saisonal ändernde Daten und deren Interpretation.

Das vierte V: Big Data Veracity

Definition von Big Data Veracity
Veracity bedeutet Aufrichtigkeit, also die Qualität von Daten

Die Big Data Veracity, auf Deutsch die “Aufrichtigkeit” oder “Wahrhaftigkeit” der Daten beschäftigt sich mit der Qualität der vorliegenden Daten. Im speziellen kann man Veracity in die beiden Bereiche Herkunft und Inhalt unterteilen.

Die Herkunft der Daten ist von hoher Relevanz, damit man die Vertrauenswürdigkeit der Quelle definieren kann. Interne Datensätze sind meist vertrauenswürdiger als externe Datensätze. Gut gepflegte Datensätze wiederum können allerdings einen höheren Wahrheitsgehalt als verwahrloste Datensätze beinhalten. Daher ist es immer ein schwieriges Gedankenspiel zu definieren, welche Herkunft die bessere ist. Dennoch möchte man dies sehr gerne dokumentiert haben – schon alleine deshalb, falls man neuere, mehr oder andere Daten zum gleichen Thema akquirieren möchte.

Der prominentere Teil der Big Data Veracity ist allerdings der Inhalt der Daten selbst. Der genormte Begriff dafür ist Datenqualität aus dem Bereich der Data Governance. Wie jede Data Driven Company inzwischen erkannt hat ist Data Governance – also die Prozesse, Prinzipien und Durchführung von Datenpflege – nach der Datenerfassung die nächste große Herausforderung. Denn ungepflegte, nicht gesäuberte oder unzureichend definierte und dokumentierte Daten führen meist nur zu eins: Schlechter Analyse.

Das “Garbage in, Garbage out”-Prinzip zeigt es am deutlichsten. Wenn man Daten von schlechter Qualität nutzt, wird – egal welche Aufwände man in die Weiterverarbeitung und Analyse steckt – auch eine schlechte Ergebnisqualität erwartet. Nur wenn man diese Qualität verhindert – also sich dem Thema Big Data Veracity widmet – kann ein Unternehmen Daten sinnvoll einsetzen.

Zusammenfassend kann man erkennen warum “Veracity” es auf die Liste der Big Data Vs geschafft hat. Nicht zu wissen woher Daten kommen, nicht zu wissen wie vertrauenswürdig der Inhalt ist und nicht zu wissen wie es um die Qualität der Daten steht sind Indikatoren dafür, dass man sich diesem Thema gesondert widmen muss. Data Governance Initiativen die Datenquellen dokumentieren, katalogisieren und Attribute definieren sind ein guter Anfang, Data Stewardship Programme für die Erhöhung der Datenqualität ein logischer nächster Schritt auf dem Weg zum nachhaltigen Einsatz von Daten

Beispiele für “veracious” Daten: Data Veracity in der Praxis

Ein Dashboard mit verschiedenen KPIs
Jede weitere Verwendung von Daten benötigt eine hohe Qualität

Beispiel 1: e-Commerce Rohdatenexport aus Webanalytics

Wenn man Rohdaten aus Webanalytics exportiert, gibt es oft das Problem, dass man aus externen Systemen keine Einträge löschen kann. Beispielsweise bei Google Analytics werden Falschbestellungen oder -buchungen (z.B. durch Bugs) mit exportiert. Diese kann man nur durch invertierte Negativbuchungen korrigieren – und das auch nur, wenn man weiß, dass man das tun muss. 

Nimmt man nun einen Rohdatenexport und ist sich dieser Problematik nicht bewusst, verzerrt es schnell alle Analysen, da Falschbuchungen mit eingerechnet werden. Gleichermaßen muss man zur Korrektur erst einmal wissen, welche Falschbuchungen ausgeglichen werden müssen, bevor man die Grundwahrheit wieder herstellen kann.

Beispiel 2: Undokumentierte Wetterdaten 

In vielen Suchmaschinen werden Wetterdaten, entweder historisch oder live, als Faktor mit eingerechnet. Diese Daten werden selten vom Unternehmen selbst produziert, sondern fast immer von extern akquiriert. Wenn ein Unternehmen nun historische Wetterdaten nutzt, die weder in Ursprung noch in Inhalt definiert sind, stößt man schnell auf Probleme: Welche Wetterstationen fließen ein? Wie kriegt man aktuelle Daten? Wenn der Service abgeschalten wird – wie finden wir einen möglichst ähnlichen externen Service, der die gleiche Datengrundlage abbildet? Klassische Beispiele für mangelnde Herkunft, Inhalte und somit Qualität.

Beispiel 3: Aggregierte Umsatzdaten im Data Lake

Einer der Vorteile von Data Lakes ist das Vorhalten von sowohl Roh- als auch weiterverarbeiteten Datensätzen. Greifen wir nun beispielsweise auf aggregierte Umsatzdaten zu, deren Berechnung nicht dokumentiert wurde, laufen wir schnell in die Problematik, weder Herkunft noch Qualität beurteilen zu können. 

Wie wurden die Daten verarbeitet? Welche Buchungsarten wurden selektiert? Gab es Filter? Viele Fragezeichen, die sich für die korrekte und effiziente Analyse von Daten nicht stellen sollten. Folglich wird der Data Lake zum Data Swamp und die Konsumenten können nicht beurteilen, ob die Weiterverarbeitung der Daten sinnvoll oder gar falsch ist. Hier sind alle Rollen, vom Data Engineer über den Scientist bis zum Management gefragt, um eine hohe Qualität zu gewährleisten.

Zusammenfassung von Big Data Veracity

Wenn man diese Aspekte gemeinsam betrachtet, wird die Wichtigkeit von Veracity im Big Data Kontext schnell klar. Es geht nicht nur darum zu wissen, ob die Inhalte und somit die Qualität der Daten hoch ist, sondern auch ob sie aus einer vertrauenswürdigen Quelle stammen und sich somit zur Weiterverarbeitung und Interpretation eignen. Man darf nicht vergessen, dass basierend auf Datenanalysen strategische, prozessuale und operative Entscheidungen getroffen werden. Falls diese Analysen auf schlechten oder falschen Dateninhalten basieren, kann es schnell zu großen Problemen führen.

Von daher empfehlen wir sich dem Thema Datenwahrheit, -dokumentation und -qualität ausführlich zu widmen. Data Governance, Data Management und Data Stewardship sind in der Data Driven Company wichtige Themen, in die viel Zeit, Energie und Budget investiert werden muss, um zukunftsgerichtet arbeiten zu können.

Wer mehr Details zu Big Data und den anderen Vs möchte, dem empfehlen wir unseren Artikel „Big Data Definition, Merkmale und Technologien„.