Was hat Data Science eigentlich für ein Problem?

Jeder will es, kaum einer kann die Erfolgsgeschichten zu Tisch bringen. Und selbst jene Erfolge über die gesprochen wird, sind hart erkämpft. Was ist also das Problem mit Data Science, dass es so schwierig ist?

Um es kurz zu fassen: Es gibt nicht das eine Problem. Es sind eher mehrere Problemkategorien, die man betrachten muss um zu verstehen, warum Data Science Projekte so oft fehlschlagen. Dass die Schwierigkeit so breit ausgelegt ist hat zum Hintergrund, dass Daten aus allen Bereichen kommen und in alle Bereiche strahlen. Daher sind sie auch derart umfassend wie kaum ein anderer Bereich. Mehr noch: Die Problemkategorien von Data Science sind auch nicht durch die Nutzung von Daten entstanden, sondern waren schon vorher da und werden durch den Versuch, Daten als effektives Werkzeug im Unternehmen einzusetzen, nur sichtbar gemacht.

Legacy: Die Anderen sind schuld!

Starten wir mit etwas einfachem, was gleichermaßen selbstverständlich ist: Die Legacy. Als “Legacy” bezeichnet man Dinge, vor allem IT-Systeme, Organisationen oder Prozesse, die vor vielen Jahren etabliert wurden und inzwischen Probleme verursacht, die man vorher nicht (genügend) mitbedacht hat. Im einfachsten Fall ist dies zum Beispiel ein altes CRM (Customer Relationship Management System, also Kundenverwaltungsprogramm), in das man keine Social Media Accounts einpflegen kann. In schlimmeren Fällen sind es jedoch Systeme die mit der aufkommenden Datenmenge durch falsche Technologien oder schlechte Programmierung nicht mehr Schritt halten können. Während ersteres eher ein Luxusproblem darstellt (“Ich kann meinen Kunden kein Facebook zu zuordnen”), ist zweiteres betriebsgefährdend.

Was hat dieses sehr bekannte Problem mit Data Science zu tun? Nun, IT-Systeme waren in der Vergangenheit in den seltensten Fällen dafür gedacht, große Datenmengen zu produzieren, zu speichern und einfach und effektiv zur Weiterverarbeitung zur Verfügung zu stellen. Dies startet bei den Datenbanksystemen und reicht über Schemas bis zum Fehlen von Schnittstellen. Möchte man nun die Daten des Systems extrahieren um sie zu analysieren stößt man sehr schnell an Grenzen – ob nun gar keine API, unmögliche Datenmodelle oder sehr hoher Aufwand, sie automatisiert abzuziehen.

Folgendermaßen trägt die IT-Landschaft dazu bei, dass Datenauswertungsinitiativen schnell scheitern oder nur mit sehr hohem Aufwand umgesetzt werden können. Der Aufwand, der einem entgegen wirkt um starten zu können wirkt daher oft in keinem Verhältnis zu dem Potential. Besonders, wenn man nur von Anwendungsfall zu Anwendungsfall denkt, statt strategisch langfristig zu agieren.

Mitten im digitalen Wandeln; digitalisierung ist noch nicht abgeschlossen, Datenrevolution

Datenqualität und -menge: Es reicht einfach nicht

Doch selbst wenn man Zugang zu den Systemen hat, heisst dies noch lange nicht, dass die vorliegenden Daten nutzbar sind. Die gesamte Thematik Datenqualität spielt eine große Rolle. Ob nun von einer mangelnden Verknüpfbarkeit von Datenquellen (“Unique Identifier”) oder schlechten Inhalten (Completeness, Correctness,..) geprägt: Sehr viele Unternehmen und vor allem auch frische Data Science Absolventen unterschätzen, was es heisst, mit realen Daten zu arbeiten.

Besonders spannend wir diese Aufgabe immer dann, wenn Nutzer- oder Mitarbeiter-generierter Inhalt vorliegt. Kaum jemand “an der Front” kümmert sich üblicherweise darum, die Daten dann auch weiter zu nutzen. Attribute werden querbeet erfasst, Felder gar nicht oder mit einer Bandbreite an Platzhaltern gefüllt oder die IT hat allen Beteiligten das Leben einfach gemacht, indem sie keine Datentypenüberprüfung eingebaut hat.

Alles führt zu einem Problem: Wir haben Daten, aber wir dürfen erst einmal einen sehr großen Aufwand betreiben, diese zu verknüpfen, säubern und aufzubereiten. Während bei einem Data Warehouse dies oft noch mitgedacht wurde, stösst Data Science eben in die Welt der Daten vor, die bisher kaum Beachtung findet: unstrukturierte, von Menschen generierte Daten. Und schnell erkennt man, dass man erst seit wenigen Jahren daran denkt, die erfassten Daten auch als Mehrwert nutzen zu wollen.

Ein weiterer Aspekt wenn man vorliegende Daten betrachtet ist ganz einfach die Menge und deren Granularität. Viele Unternehmen denken sie hätten “Big Data”, wenn sie eine Excel-Liste von 1000 Einträgen vorweisen können. Oder weil sie Google Analytics angeschlossen haben. Noch besser ist der Fall, wenn man aus Kostengründen bisher nur aggregierte Daten gespeichert hat.

In keinem der Fälle liegen wirklich viele Daten vor. So mögen diese für grundständige Analyticsvorhaben genügen, aber für tiefergehende, auf Machine Learning basierte Data Mining Vorhaben eignen sich solche Datensätze sehr selten. Folglich muss man oft auch die Wahrnehmung korrigieren, was viele Daten sind, was besondere Datensätze (mit Wert!) sind und dass man doch in vielen Fällen erst einmal drei Schritte zurück machen und Daten erheben muss, bevor man sinnvolle Anwendungsfälle umsetzen kann.

Expertise – wirklich erfahrene Mitarbeiter

Während obige beiden Probleme meist erst im Versuch der Umsetzung von Data Science Projekten auftreten, gibt es schon vorab ein großes Problem: Erfahrung. Seit Daten das neue Öl sind und der Data Scientist der sexisiest Job im 21. Jahrhundert ist, hat der Run auf die Rolle begonnen. Die Online-Bootcamps von fragwürdiger Natur bilden tausende von jungen Menschen auf den immergleichen Datensätzen aus, Datenwissenschaft ist als Bachelor-Studiengang im Kommen und jeder, der einmal ein Modell trainiert hat, kennt sich plötzlich mit Artificial Intelligence aus.

Leider merkt man diesen “Goldrush” auch sehr schnell in Qualität und Weitblick der verfügbaren Mitarbeiter. Unzählige Stellen als Data Scientist und Data Engineer werden besetzt, aber ebenso unzählige Stellen bleiben unbesetzt. Der Grund ist simpel: Wer keine reale Erfahrung hat, bringt in ein Unternehmen sehr viel weniger ein, als jemand der bereits einige Jahre den gesamten Data Science Prozess durchlebt hat. Daher ist es oft nicht eine Frage ob es genug Absolventen für eine Rolle gibt, sondern vielmehr ob es genügend qualifizierte Bewerber gibt.

Ich bin inzwischen der festen Überzeugung, dass der Aufbau eines Data Science Teams “von unten”, also über Juniors, kaum möglich ist. Viele Unternehmen stellen Pro Forma (um CEO und Board zu beglücken) ein paar “Data Scientists” ein und lassen sie arbeiten. Mit dem Erfolg, dass sie gar nicht arbeiten können und falls sie es doch tun, laufen sie in die immer gleichen Probleme: Systeme, Daten, Zugriffe, Qualität, Modellqualität, Operationalisierung, Concept Drift, etc. Der harte Weg des Selbststudiums ist toll – aber mehr Wert bringt, wer sich bereits zu bewegen weiß. Und diese Mitarbeiter kosten viel Geld, weil sie es sind die rar sind. Was wiederum Commitment des Managements benötigt – bevor diesem klar ist, was der Effekt ist. Ein klassisches Henne-Ei-Problem.

Identifikation und Bewertung von Anwendungsfällen: Wo liegt der Wert?

Nehmen wir an, wir hätten super Daten vorliegen und ein Team, das bereits Erfahrung in einem anderen Unternehmen sammeln konnte. Der CEO klatscht die Beispiele von Uber und Facebook auf den Tisch und wartet auf Ergebnisse. Das Problem ist nur, dass wir in einem mittelständischen Industrieunternehmen arbeiten und nicht im Silicon Valley.

Das Problem “Und nun?” kommt nicht nur bei frischen Absolventen oder KMUs vor. Selbst sehr erfahrene, technisch versierte und algorithmisch exzellente Mitarbeiter haben oft Schwierigkeiten, Anwendungsfälle zu identifizieren die a) Nicht den 100 Standard Use Cases entsprechen b) nicht 5 Jahre Forschungsaufwand bedeuten und c) auch wirklich für das eigene Unternehmen einen Wert bringen und nicht bei einem anderen wunderbar funktionieren würden.

Diese Kategorie ist nicht so einfach zu lösen. Viele Unternehmen lassen sich von anderen Unternehmen inspirieren – ob nun Startup, Unicorn oder Beratung. Dies sind aber nur Impulse und lösen nicht langfristig die Frage: Wie können wir Wert aus unseren Daten schaffen? Dass ich diese Frage als eigene Kategorie aufwerfe und somit sehr zentral in den Blick stelle hat natürlich einen Hintergrund: Ich bin der Ansicht, dass dieses Thema nach Anwendungsfällen ähnlich einer Produktentwicklung etabliert werden muss.

Wenn datenbasierte Anwendungsfälle – egal ob nun als eigenes Produkt, Service oder als Unterstützung für vorhandene Produkte und Services – einen ähnlichen Stellenwert bekommen wie das Produkt an sich, schafft man es, Ansätze früh zu erfassen, evaluieren und entsprechend zu priorisieren. Die Kreativität kann spielen, Domänenexperten validieren (kundenzentriert) die Ideen und eine Priorisierung erlaubt eine Fokussierung. Nur wenn alle diese Teilaspekte mit eingeschlossen werden, schafft man es auch wirklich, aus den Daten Wert zu generieren.

Datenkultur: Nur wer es lebt, kann es vertreten

Abschließend ein Thema, das alle anderen zusammen bringt: Die Kultur. Manager sind gut darin, fabelhafte Strategien zu erstellen oder erstellen zu lassen, diese zu proklamieren und dann.. andere Dinge zu tun. Was danach passiert? Genau das, weshalb die deutsche Digitalisierung dort steht wo sie steht: Nichts. Besonders passend finde ich hierbei ein Zitat von Peter Drucker:

Culture eats strategy for breakfast
– Peter Drucker

Es ist ganz einfach: Nur weil man eine (Daten-)Strategie ausarbeitet, wird diese noch lange nicht verfolgt. Wenige Mitarbeiter prüfen kontinuierlich ob ihre Arbeit in die Strategie einzahlt und justieren ihre Tätigkeiten entsprechend. Stattdessen tun sie, was am besten in ihrem eigenen Interesse ist oder – was sie gewohnt sind.

Was heisst das für uns? Nun, wenn wir als Ziel haben, unser Unternehmen durch den Wert von Daten gewinnen zu lassen, ist der umfassende Kleber der alles zusammenhält eine integrierte Datenkultur. Diese wird etabliert und gefördert durch (interne) Marketingmaßnahmen, Wissenstransfers und Trainings, Aufklärung, aber auch die proaktive Botschaft, dass Daten uns neue Wege eröffnet. Und dies ist ein ganz klares, unmissverständliches Management-Commitment. Kombiniert man diese Tätigkeiten – Verständnis, Akzeptanz und kontinuierliche Etablierung von Data Science im Alltag – hat man gute Chancen, dass sich das Unternehmen in eine Data Driven Company transformiert, die eine starke Datenkultur verkörpert.

Das Beste zum Schluss: Nebst all den operativen Problemen ist Data Science so schwierig, da es wohl das erste Mal ist, dass ein Unternehmen kontinuierlich über alle Bereiche hinweg zusammenarbeiten muss, um Erfolge zu erzielen. Die Zeit, in der eine Abteilung als Königreich seine eigenen Erfolge erzielen und feiern kann, geht mit einer holistischen, datenbasierten Arbeit zu Ende.

Bisher konnten Arbeiten innerhalb einer Domäne erledigt werden (zum Beispiel Dashboards im Marketing) oder zumindest relativ einfach an die Querfunktionen übergeben werden (z.B. Evaluierung neuer IT-Systeme).

Mit dem Einsatz von Data Science benötigt es die Domänenexperten zur Identifikation von Anwendungsfällen, die Techies aus der IT und die Fachexperten aus dem Datenbereich im konstanten Austausch, um Use Cases, Datenauswertung und Technologie zusammen zu bringen. Die Verantwortung diffundiert und nur durch eine starke Zusammenarbeit gelingt es, zur Data Driven Company zu werden. Und die Kombination von diesen vielen Stärken ist die Chance, aber eben auch die Herausforderung im Bereich Data Science.