Data Governance Guide: Alles was man wissen muss

Data Governance ist die Grundlage für nachhaltige, hochqualitative Arbeit mit Daten. Sie beschäftigt sich strategisch mit Themen wie Sicherheit, Qualität und Dokumentation und etabliert Meta-Prozesse, um diese Aktivitäten zu steuern. Ganzheitlich ist Data Governance die Basis für eine langfristige datenbasierte Arbeit und es gilt, sich möglichst früh dem Thema zu widmen.

Inhaltsverzeichnis

Definition von Data Governance

Data Governance, zu Deutsch „Datenkontrolle“ oder „Datenverwaltung“, ist die strategische und strukturierte Herangehensweise Zugang, Sicherheit, Qualität, Dokumentation und andere Meta-Prozesse rund um Daten zu steuern.

Mit zunehmender Datennutzung steigen auch die Anforderungen an die eingesetzten Daten. Oft ist nicht klar, welche Daten im Unternehmen existieren, welche Information in diesen Daten enthalten ist, wie man Zugang bekommt oder welche Qualität diese Daten besitzen. Folglich sind Daten oft nicht brauchbar: Man kennt sie nicht, kommt nicht dran oder kann sich nicht auf sie verlassen.

An diesem Punkt tritt Data Governance auf den Plan. Data Governance hat einfach gesagt zur Aufgabe, flexibel die richtigen Daten an die richtigen Personen und Systeme zur Verfügung zu stellen. Dabei definiert Data Governance Richtlinien, Prozesse und Prinzipien, die einer Data Governance Vision folgen – also was das übergeordnete Ziel einer Data Governance Initiative ist.

Beispiele für die Notwendigkeit von Data Governance

Um die Notwendigkeit für Data Governance etwas einfacher darzustellen, nachfolgend ein paar Beispiele weshalb das Thema Datenverwaltung Prozesse optimiert, Sicherheit schafft und Innovation erlaubt.

Zugang und Dokumentation: Was für Daten haben wir denn nun und wie werden die genutzt?

Einer der einfachsten – und auch häufigsten – Fälle an denen eine Data Governance Initiative Frucht bringen würde ist der Zugang und die Dokumentation von Daten. Bei neuen Datenprojekten, egal ob einfache Pipelines oder ein datenbasiertes Produkt, ist eine der ersten Fragen: Was für Daten haben wir denn? Qualitative und punktuelle Erfahrungen kommen dann zum Einsatz, wobei aber immer öfter die ein oder andere Datenquelle vergessen wird.

Bei Etablierung und strategischem Management eines Data Lakes und dessen Dokumentation und Pflege – Aufgaben von Data Governance – würden diese Fehler und Ineffizienzen schnell entfallen. Man weiß, welche Datenquellen existieren, welche Inhalte sie bereitstellen, wie sie weiterverarbeitet wurden und im Optimalfall auch wo sie überall eingesetzt werden. Klarheit und Transparenz erlaubt es, datenbasierte Produkte effizient umzusetzen.

Datenqualität: 70% der Arbeitszeit verbringen Data Scientists mit dem Säubern von Daten

Das wohl am meisten assoziierte Thema mit Data Governance ist die Datenqualität. Gemäß einer Umfrage verbringen Data Scientists 70 bis 80% ihrer Zeit damit, Daten vorzubereiten und zu säubern. Alleine 25% ihrer Zeit nutzen die Datenwissenschaftler für Data Cleansing – also dem Säubern.

Wenn man nun einem Geschäftsführer mitteilt, dass man seine Mitarbeiter um 25% produktiver machen kann, würde sich in den meisten Fällen keine Frage stellen. Daher ist ein strategisch aufgesetzter Data Quality Management Prozess auch keine Kirsche auf der Torte – sondern der Boden.

DSGVO: Das Schreckgespenst der personenbezogenen Daten

Seit wenigen Jahren in Kraft und schon hat es mehr für die Dokumentation, Erfassung und Verwaltung von Daten getan als die Jahrzehnte zuvor: die Datenschutzgrundverordnung (DSGVO). Durch den Zwang, dass Unternehmen wissen müssen, wo personenbezogene Daten liegen und sie auf Anfrage auch löschen zu können, hat eine Bewegung eingesetzt die die ersten Grundzüge eines Data Governance Programms aufweist.

Doch statt diese Ideen strategisch zu verankern wurden sie vielerorts nur auf die Richtlinien der DSGVO beschränkt und wieder ins Archiv gebannt. Dabei sind rechtliche Grundlage – ob nun DSGVO oder Audits – eine sehr große Triebfeder, um Data Governance auszuüben. Vor allem auch wenn man noch den Bereich der Data Security hinzu nimmt, ist der Schaden bei einem Hack oder ähnlichen nicht auszumalen, falls die Daten nicht sauber beschränkt sind.

Handlungsfelder & Themen von Data Governance

Anhand dieser Data Governance Beispiele kann man bereits die meisten Themen von Data Governance ableiten. Dabei gilt, dass es keinen fixen Umfang an „TODOs“ von Data Governance gibt, sondern die Themen individuell für jedes Unternehmen, die Eigeninteressen, die Organisationsstruktur und so weiter definiert werden müssen. Dennoch gibt es bestimmte Bereiche, die immer wieder im Thema Data Governance auftreten:

  • Data Quality (Datenqualität): Die Qualität von vorliegenden Daten, gegebenfalls Korrekturmaßnahmen oder festgestellte Schwächen. Standards zur Korrektur, Initiativen für das „First Time Right“-Principle. Überwachung und kontinuierliche Verbesserung der Datenqualität.
  • Dokumentation (Data Catalogue): Dokumentation von Datenquellen, deren Inhalte (Attribute), sowohl auf technischer, Datenmodell- als auch semantischer Ebene. Dokumentation der Verwendung von Datensätzen in Produkten und/oder Analysen. Basis für einen Data Lake (vs. Data Swamp).
  • Data Lifecycle: Aktualität, Durchsatz, Alter von Datensätzen. Verlust von Aussagekraft, „Concept Drift“ und anderem. Maßnahmen um Daten aktuell zu halten. Vor allem relevant im Bereich Stammdaten (z.B. PIM) oder High Frequency Data (z.B. IoT), weniger in klassische Transaktionsdaten (z.B. ERP).
  • Datensicherheit (Data Security): Die sichere Verwahrung von Daten (Data Protection) gemäß verschiedener Schutzsstufen und vor allem gegen Angriffe von Aussen. Klassifizierung von Daten anhand des Inhalts und der Schutzbedürftigkeit. Einrichten von „Security Zones“, Entscheidungseinfluss auf Data Lake, Hybrid Cloud, etc.
  • Zugriff (Data Access): Ein kontrollierter, aktuell gehaltener und standardisierter Prozess zum Zugriff auf Daten verschiedener Schutzklassen. Festlegung von Zugriffsarten (z.B. Ad-Hoc vs. Permanent, Pipeline vs. Batch). Ermöglichung eines schnellen, einfachen Zugriffs bei gleichzeitiger Maximierung des Schutzes, vor allem bei sensitiven (z.B. personenbezogenen, Entwicklungs-) Daten.
  • Data Ownership: Wer hat die Verantwortung über eine Datenquelle? Wer ist zu kontaktieren bei Zugriff? Welche Informationspflichten gibt es? Data Ownership ist vor allem beim dezentralen Einsatz von Data Owners ein Thema für Data Governance.
  • Data Standardisation: Manchmal wird auch die Standardisierung von Datenmodellen, Dokumentation oder die Zusammenführung von verschiedenen Data Management Initiativen im Konzern auf ein Data Governance Programm umgelegt. Dann gilt es vor allem Best Practices, Guidelines und Kontrollelemente einzuführen, die diesen Standard gewährleisten.
  • Data Lineage: Zu Deutsch der Datenstammbaum definiert sowohl Datenquellen als auch Verwendung. Anders als ein Datenkatalog hat Data Lineage allerdings zusätzlich die Funktion eine „Ground Truth“ eines Datums zu definieren. Data Lineage eignet sich vor allem zur Verfolgung und Kontrolle von Datenverwendung, Teilen von Datensätzen und deren Wiedereinsatz in verschiedenen Bereichen.

Neben diesen wiederkehrenden allgemeinen Themen kann Data Governance allerdings noch andere Bereiche abdecken. Zum Beispiel die Definition von Rollen (wie Data Scientist, Data Engineer), deren Einsatz, ethische Fragen und vieles mehr. Es ist abhängig von jedem Unternehmen und dessen Schwerpunkten, welche Aufgaben eine Data Governance Initiative übernimmt und wie diese priorisiert werden.

Begriffsdefinition und Positionierung von Data Governance

Was ist der Unterschied zwischen Data Governance und Data Management?

Wir unterscheiden sehr stark zwischen Data Governance – der strategischen Führung des Themas – und Data Management – der Umsetzung von Data Governance. Der Grund ist einfach: Wenn Unternehmen sich dem Thema Data Governance das erste Mal widmen, geschehen meist Schnellschüsse. Sie stellen Data Stewards ein, kaufen Data Governance Software, lassen womöglich Datenqualitätsanalysen erstellen.

Doch mit diesen operativen Entscheidungen erstellt man nur eine zerklüftete Landschaft der Datenpflege, die keinen strategischen Richtlinien und Strategien folgt. Folglich gilt es, erst einmal einen Schritt zurück zu treten und klar zu definieren, was die Ziele und Metriken von erfolgreicher Data Governance im Unternehmen sind – bevor es an die Umsetzung geht.

Was ist der Unterschied zwischen Data Science und Data Governance?

Wie eingangs erwähnt steigt mit zunehmender Datennutzung auch meist die Anforderung an die darunter liegenden Daten. Diese Datennutzung ist meist auf die Themen Data Science, künstliche Intelligenz und maschinelles Lernen zurück zu führen. Denn durch diese neuen Datenverarbeitungsmethoden werden Daten nicht nur zur operativen Abwicklung genutzt, sondern eben auch um Mehrwert direkt aus Daten zu generieren. Daher ist Data Science oft die Initialzündung in einem Unternehmen, dass Data Governance ein wichtiges Thema ist, das langfristig die Organisation zukunftsfähig macht.

Was ist der Unterschied zwischen Data Governance und Information Management?

Ein weiterer Begriff der sich im Umfeld von Data Governance bewegt ist das Information Management, zu Deutsch Informationsmanagement. Wenn man der Idee der Wissenspyramide folgt, sind Informationen destillierte Daten – also hierarchisch höher.  Folglich kann man auch das Information Management als umfangreicher als Data Management sehen: Nicht nur Daten, sondern dazugehörige semantische Information wird erfasst, dokumentiert, gepflegt und bereit gestellt.

Framework: Wie kann man Data Governance ins Unternehmen integrieren?

Es gibt viele Herangehensweisen, Data Governance als Framework zu integrieren. Wir raten generell von starren, fixen Frameworks ab. Wie ersichtlich kann Data Governance ein sehr komplexes Programm werden. Daher ist unsere Empfehlung, ein Framework einzusetzen, das flexibel, variabel und vor allem schrittweise das Thema Data Governance individuell auf das Unternehmen angepasst einführt. Im nachfolgenden stellen wir ein Data Governance Framework vor, das wir oft bei Organisationen einsetzen um das Thema umfassend zu etablieren und dann schrittweise umzusetzen.

Data Governance consist of 6 main components:

  • Vision: Die Vision der GD ist die Definition von Data Governance im Unternehmen und dient als Bild der gewünschten Zukunft.
  • Organisation: Die DG-Organisation ist die formale Festlegung von Rollen und Hierarchie innerhalb der DG-Initiative.
  • Principles: Dies sind die Grundüberzeugungen, die das Fundament der DG-Initiative bilden.
  • Policies: Sind die Konkretisierung der Grundsätze der GD, z. B. Standards wie Namenskonventionen.
  • Prozesse: Aktivitäten innerhalb der DG-Initiative, wie Datenkatalogisierung, Datenzugriffsmanagement usw.
  • Metriken: Die DG-Metriken werden benötigt, um die Wirksamkeit der DG-Initiative zu überwachen (z. B. Anzahl der geschulten Stewards, Vollständigkeit des Datenkatalogs usw.)

Vision: Wofür steht die Data Governance?

Das Data Governance Programm wird definiert durch eine sehr sorgfältig ausgewählte Vision. Hierbei ist das Ziel, dass jeder Begriff in der Vision mit Bedacht gewählt wird und sich in den Prinzipien wiederfindet. Die Vision soll als kurzes, prägnantes Statement das Data Governance Team in ihren Aktivitäten leiten und auch in andere Abteilungen strahlen, was der Kern der Initiative ist.

Beispiel für die Data Governance Vision der Universität Stanford: „Stanford’s data governance program’s vision is that institutional data is trusted, understood, accurate, and is provided and used in a meaningful, secure and consistent manner.“

Organization: Wer verantwortet und entwickelt das Data Governance Programm?

Um eine Data Governance Initiative auch nachhaltig im Unternehmen zu verankern, müssen die verschiedenen Data Governance & Data Management Aufgaben auch mittels Rollen und einen Platz in der Organisation gespiegelt werden. Dazu muss man entscheiden ob die Data Governance zentral oder dezentral organisiert werden soll, welche Rolle welche Aufgabe übernimmt und wer das Programm steuert. Die Definition der Organisation ist zentral, dass das Thema nachhaltig und auch umfassend etabliert wird.

Beispiele für relevante Organisationsaspekte: Rollen (Data Stewards, Data Owners..), Zentralisierung, beteiligte Abteilungen, Mandat

Principles: Was sind unsere Richtlinien, an denen wir uns orientieren?

Die Prinzipien sind die detaillierte Version der Vision. Sie beschreiben die Art und Weise, wie das Data Governance Programm durchgeführt werden soll. Die Relevanz der Principles ist eine Art Leitplanke, an der sich alle Aktivitäten ausrichten. So definieren sie einerseits die Themen selbst (z.B. um „gut dokumentiert“ zu sein, braucht man einen Datenkatalog), andererseits sind sie aber die semantische Richtlinie was den Kern des Programms ausmacht.

Beispiele für Prinzipien: „First Time Right“-Principle, „Data as an Asset”-Principle, “Well documented”-Principle

Policies: Das Regelwerk von Data Governance

Die Policies sind Regularien und Vorgaben, wie Dinge umgesetzt werden. Im Endeffekt sind sie die Richtlinien, wie die Principles manifestiert sind. Es gibt sowohl externe Richtlinien als auch interne Richtlinien; in beiden Fällen sind dies starre Regeln, nach denen es gilt, die verschiedenen Themen zu bearbeiten. Oft gelten Policies für ein einzelnes Thema.

Beispiele für Policies: Naming Conventions, Legal Regularities, datenethische Vorgaben

Processes: Wie Data Governance im operativen umgesetzt wird

Finalerweise sind die Prozesse die Definition wie ein Thema operativ verankert wird. Sie haben zum Ziel, das theoretische Framework in die Realität zu überführen. Zum Beispiel kann im Data Quality Prozess definiert werden welche Quality-Gates es für die Daten gibt und wie die Prozessschritte sind, falls Fehler auftreten.

Beispiele: Data Quality Prozess, Data Catalogue Process, Access Requests, Cloud Onboarding

Metrics: Wie weit und wie gut sind wir im Thema Data Governance?

Als quasi selbstüberwachendes Instrument werden Metriken definiert und überwacht. Diese Metriken beziehen sich nicht auf ein Thema in der Data Governance (z.B. Data Quality), sondern auf KPIs der Data Governance selbst (z.B. Status Implementierung, umgesetzte Initiativen, gesparte Ausgaben).

Die Metrics sind ein einfaches Kontrollinstrument ob man im Thema vorankommt und falls ja, mit welchem Erfolg. Diese KPIs gelten als zentral für den Fortschritt des Programms und somit auch als „ROI“ der Initiativen.

Rollen die im Thema Data Governance beteiligt sind

Die Rollen im Thema Data Governance sind bisher kaum fix definiert. Je nach Unternehmen werden verschiedene, bereits existierende Rollen (z.B. Data Owner) integriert oder neue Rollen und Positionen geschaffen. Dennoch hier eine Liste an Beteiligten, die oft in Data Governance Aktivitäten zu finden sind:

  • Data Steward: Die wohl prominenteste Rolle ist der Data Steward, auf Deutsch „Wächter“ oder „Ordner“ der Daten. Data Stewards haben zur Aufgabe, den Status der verschiedenen Data Governance Initiativen zu überwachen und ggf. aktiv einzugreifen oder zumindest die zuständigen Personen über die Auffälligkeiten zu informieren.
  • Data Governance Council: Das Data Governance Council ist eine übergeordnete, cross-funktionale Einheit, die meist aus Experten verschiedener Fach- und Businessbereiche besteht. Das Ziel ist die Definition und Steuerung aller Data Governance Initiativen. Die höchste Effektivität des Data Governance Councils wird erreicht, wenn man Fachexperten (z.B. Data Engineers, Data Security Managers) mit Systemverantwortlichen (z.B. PIM Solution Manager, Webanalytics Manager) und Businesseinheiten (z.B. Sales, Manufacturing) kombiniert. 
  • Chief Data Officer (CDO): Einer der beiden Arbeitsbereiche des Chief Data Officers ist die „Defense“ im Bezug auf Daten. Während die „Offense“ sich mit der Verwendung von Daten (z.B. Einsatz von KI) beschäftigt, weist die „Data Defense“ eine sehr hohe Schnittmenge mit Data Governance auf. Sicherheit, Dokumentation, Zugriff und vieles mehr ist im Arbeitsbereich des CDOs zu finden und somit gilt er auch oft als Initiator und Führungspersönlichkeit im Bereich Data Governance.
  • Chief Information Security Officer (CISO): Hat ein Konzern einen CISO im Einsatz, werden Data Governance Initiativen auch gerne aus der Denke der Sicherheit, des Zugriffs und der legalen Richtlinien (DSGVO etc) getrieben. Unabhängig wo der Startpunkt ist, CISOs haben immer einen Platz am Tisch von Data Governance, falls sie denn existieren.
  • Solution Manager MDM / PIM / CRM: Bereits mehrfach erwähnt, aber Data Governance kommt oft sehr stark durch die Notwendigkeit von Stammdaten auf den Tisch. Schnelligkeit, Korrektheit und mehr haben sehr hohe Relevanz in Produkt-, Lieferanten- und Kundendaten. Daher sind Solution Manager aus dem Stammdaten- oder Master Data Management-Bereich oft erste Ansprechpartner für Data Governance.

Eine Liste von Data Governance Tools

Es ist nicht möglich in diesem Artikel eine ständig aktuelle oder auch nur ansatzweise vollständige Liste an Data Governance Tools bereit zu stellen. Dafür entwickelt sich die Data Governance & Management Landschaft viel zu schnell. Dennoch möchte ich einen Überblick über verfügbare (große / bekannte) Tools geben.

  • Informatica: Das wohl mitunter bekannteste Data Governance Toolset bildet eine ganze Bandbreite an Themen ab. Von Datenkatalog über Datenqualität bis zum Business Glossar kann es vieles und noch mehr.
  • Alation: Ursprünglich stark als Datenkatalog konzipiert, hat Alation einige interessante Alleinstellungsmerkmale. Zum Beispiel haben sie ein selbstlernendes System, das vom Verhalten von Analysten lernt und somit direkt Mehrwert an andere Mitarbeiter zurück liefert.
  • SAS Data Management: SAS ist auch einer der Big Player und hat die klassischen Funktionen rund um Prozessmanagement, Business Glossary, Metadata Management und Lineage Visualisierung.
  • Collibra Governance: Das Thema Automatisierung von Governance, Stewardship und Management Aufgaben steht groß auf der Flagge von Collibra.
  • SAP Data Hub: Selbstverständlich darf auch SAP nicht fehlen. SAP geht gesamtheitlich eher in die „Data Orchestration“-Richtung und fungiert somit nicht nur als Datenkataloge und Governanceplattform, sondern bietet auch diverse ETL-Funktionen, Security und Access Funktionen und Policy Management.
  • IBM Data Governance: Auch IBM begibt sich auf den Weg, mittels AI möglichst viel Automatisierung in ihre Data Governance Toolsuite zu stecken. Von der Sammlung über die Anreicherung geht es in die Analyse und das Teilen von Datensätze.
  • Unifi Data Platform: Unifi hat zum Ziel möglichst viel manuelle Arbeit mittels Automatisierung (Profiling, NLP, Tagging, Sematisch Search) abzunehmen und die Information möglichst zugänglich zu machen (z.B. Knowledge Graphs).
  • Cloudera Enterprise: Data Discovery, Optimierung, Lineage, Auditing und vieles mehr.
  • Alteryx: Alteryx bietet eine Multifunktionsplattform die nicht nur Data Governance, sondern auch Analytics und Data Science Funktionalitäten abdeckt und sich rühmt, für alle Hierachielevel zugänglich zu sein.
  • Azure / AWS / Google Cloud: Selbstverständlich haben auch die verschiedenen Cloudanbieter ihre Data Governance Tools. Von Katalogen über Regulatorien bis zu Access Right Management ist alles dabei.

Diese Liste an Data Governance Tools kann als erste Orientierung dienen. Generell gilt aber auch hier, wie beim gesamten Data Governance Framework, dass für jedes Unternehmen individuell evaluiert werden muss, welche Anforderungen sie an ein Tool haben und welches sich am besten in die Mentalität, Infrastruktur und Prozesse integriert.

Häufige Fragen zu Data Governance

Wie und wann fange ich an?

Data Governance ist ein undankbares Thema. Es ist sehr aufwendig, nicht „flashy“ und wenn man es richtig macht, passiert: nichts. Von daher wird es oft vermieden oder viel zu spät angegangen, wenn der Berg an Daten und Datenproblemen bereits ins Unermessliche gewachsen ist.

Daher unsere Empfehlung: Durch ein Mandat aus der Geschäftsführung gilt es, gezielt das Thema zu etablieren und Verantwortliche zu definieren. Erste Initiativen wie Dokumentation und Sicherheit gehören zu den Grundlagen, ausführliche Datenqualitätsanalysen oder Lineage-Verfolgung können nachgezogen werden.

Brauche ich Data Governance wirklich?

Ein sauberes Data Governance Prinzip muss man sich wie eine geordnete Lagerhaltung vorstellen. Nur wenn klar ist welche Dinge wo liegen, in welchem Zustand und in welcher Menge, wenn eine Eingangs- und Ausgangskontrolle durchgeführt wird, kann man sich ansatzweise darauf verlassen diese Dinge in der Produktion zu verwenden.

Daher: Man kann sicherlich ohne Data Governance arbeiten. Doch wer qualitative Arbeit anpeilt, die Ineffizienten gering halten möchte und langfristig plant, sollte Data Governance als eines der wichtigen Themen auf seine Agenda nehmen.

Die Rolle von Data Governance in der Data Driven Company

Wer datenbasiert arbeiten möchte, braucht Daten. Und diese Daten müssen verarbeitungswürdig sein. Diese zwei Aspekte sind im Thema Data Governance verankert. Ob nun Access und Security oder Quality und Documentation – Data Governance spielt eine absolut zentrale Rolle in einer Data Driven Company. Vor allem wenn zum Beispiel ein Data Lake eingesetzt wird und/oder Daten regelmäßig weiterverarbeitet werden, kann Data Governance sehr hohe Fehlerquoten und Prozessineffizienzen reduzieren.

Einfach gesagt: Data Governance ist das Fundament für nachhaltige, replizierbare und verlässliche datenbasierte Arbeit. Dementsprechend gilt es in jeder angehenden Data Driven Company dieses Thema möglichst früh anzugehen, Ressourcen zur Verfügung zu stellen und die Grundsätze und Leitlinien von Data Governance in der Kultur des Unternehmens zu verankern.