Veröffentlicht am

Der AI Chasm: Vom KI-Prototyp zum Produkt

Viele Unternehmen begeben sich langsam auf den Weg zur Data Driven Company indem sie datenbasierte Anwendungsfälle als Prototypen umsetzen. Doch dann begegnen sie einem Problem, das sich “AI Chasm” nennt: der Skalierung von dieser innovativen Arbeit in einen operativen, umfassenden, selbstverständlichen Prozess. Das Thema rund um den AI Chasm beschäftigt sich also mit dem Thema wie man von datenbasierten Prototypen zu datenbasierten Produkten kommt – und wir stellen vor welche Hebel es gibt, diese Kluft zu überbrücken.

Inhaltsverzeichnis

Was ist der AI Chasm und wieso ist er für Unternehmen wichtig?

Der AI Chasm bezeichnet die Herausforderung von Unternehmen, von KI-Prototypen zu operationalen Produkten zu kommen.
Der AI Chasm bezeichnet die Herausforderung von Unternehmen, von KI-Prototypen zu operationalen Produkten zu kommen.

Unter “AI Chasm” versteht man die Herausforderung, künstliche Intelligenz von Prototypen in ein Standardwerkzeug eines Unternehmens zu heben. So befinden sich viele Organisationen im Bereich der KI momentan in der “Ausprobier”-Phase, stehen aber vor der Herausforderung, dieses datenbasierte Arbeiten in skalierbare Produkte und Services zu heben.

Dass künstliche Intelligenz, auf Englisch “Artificial Intelligence”, inzwischen zu einem der wichtigsten Digitalisierungsthemen avanciert, ist kein Geheimnis. Daher beschäftigt sich so ziemlich jedes Unternehmen mit dem Potential ihrer Daten und den Effekt von Machine Learning Algorithmen. Manche stellen eigene Data Scientists ein, andere untersuchen das Thema mittels externer Unterstützung. Egal welcher Weg: In jedem Unternehmen ziehen langsam Prototypen und Proof of Concepts ihre Runden, um die Vorteile von künstlicher Intelligenz zu vermitteln.

Meist ist es noch eher eine Spielerei oder ein Projekt, das nach der Testphase nicht weiter verfolgt wird. Aber immer öfter wird der Nutzen von Machine Learning sichtbar und dann steht sich eine einfache Frage: Wie kann dieses Vorgehen skaliert werden? Ob ein einzelner Anwendungsfall oder gleich das gesamte Thema “Data Science”: Es ist ein immenser Unterschied zwischen einem zusammengebauten Prototypen der lokal auf einem MacBook läuft und einem operationalen, dem Unternehmen Gewinn bringenden, Produkt.

Diese Kluft zwischen “etwas probiert” und “etwas im Unternehmen operationalisiert” nennt sich “AI Chasm” oder zu Deutsch “Kluft der KI”. 

Die drei Aspekte des AI Chasm

Worin liegt die Schwierigkeit, die Hürde vom Prototypen zu Produkten zu überwinden? Wir sehen primär drei Faktoren, die gelöst werden müssen, bevor man den AI Chasm im Unternehmen überwinden kann.

Die Lösungen zur Überbrückung des AI Chasm liegen im Enablement, der Datenkultur und einer Erfolgsmessung.
Die Lösungen zur Überbrückung des AI Chasm liegen im Enablement, der Datenkultur und einer Erfolgsmessung.

Das Enablement: Die Fähigkeit, datenbasierte Produkte umzusetzen und am Laufen zu halten

Als der wohl fundamentalste Aspekt zur Überbrückung des AI Chasm kann das Enablement – also die grundlegende Fähigkeit zu datenbasierten Arbeiten gesehen werden. Hierbei gibt es mehrere Aspekte zu beachten. Im Zentrum der Fähigkeit steht selbstverständlich die Data Science Expertise. Dieses Wissen ist der eine singuläre Faktor an dem Erfolg oder Misserfolg eines datenbasierten Produkts gemessen werden kann. Nur wer tiefgehendes Verständnis für Anwendungsfälle sowie Algorithmen hat, kann AI als nachhaltiges Werkzeug im Unternehmen verankern.

Während der Faktor Expertise sich vor allem auf die sogenannte Vorbereitung der Umsetzung bzw. auf die erfolgreiche Umsetzung bezieht, helfen die besten Data Science Experten wenig, wenn dann das daraus entstehende Produkt nicht in die IT Systemlandschaft integriert werden kann. Hierzu ist es notwendig eine Big Data Infrastruktur aufzusetzen, zu etablieren, zu standardisieren und zu managen. Besonders im Zentrum sind hierbei Data Architects und Data Engineers welche gemeinsam mit Enterprise Architects oder Solution Architects die Daten-Infrastruktur einrichten und das Deployment (also die Operationalisierung von z.B. Machine Learning code) ermöglichen. 

Dieser Gedanke ist oft in den Köpfen von Chief Data Officers oder äquivalenten Rollen vorhanden. Der nächste Schritt geht jedoch oft schon unter. Denn nebst Infrastruktur und fachlicher Expertise zur Bearbeitung von Data Science Use Cases braucht man auch Personal das nach dem Deployment das Monitoring und die Maintenance übernimmt. Diese Aufgabe wird normalerweise in den sogenannten DevOps-Abteilungen übernommen. Da diese allerdings oft keine explizite Kenntnisse im Bereich des Machine Learning Model Deployments haben, entsteht sukzessive ein neuer Bereich der sich ML-Ops oder Data Ops nennt. Die Experten dieses Bereichs sind nicht nur imstande Infrastruktur aufzusetzen, sondern auch in der Lage die Verfügbarkeit der Modelle und vor allem auch deren Leistungsfähigkeit zu überwachen. Die Experten des Bereichs ML-Ops beschäftigen sich daher auch mit dem sogenannten “Concept Drift”. Der Concept Drift beschreibt das Problem, dass mit zunehmender Zeit ein trainiertes und operationalisiertes Machine Learning Modell nicht mehr zu genüge die Realität abbilden kann. Dies hat zur Folge dass die Vorhersagen schlechter werden, und daher muss das Modell oder eben ein neues trainiert werden. 

Es gibt noch wesentlich mehr Enablement Themen die in die Kategorie der “Fähigkeit” zu datenbasierten Arbeiten fallen. Die drei genanntenAspekte  sind jedoch mitunter die am schwerwiegendsten um den AI Chasm zu überbrücken. Andere wichtige Themen sind zum Beispiel die Data Governance, Budgetverantwortung, organisatorische Etablierung des Bereichs Daten und vieles mehr.

Die Kultur: Der Wille und die Bereitschaft datenbasiert zu arbeiten 

Hat man die grundlegenden Probleme des Enablements gelöst und die Fähigkeit zum datenbasierten Arbeiten geschaffen, bleibt jedoch noch eine weitere umfassende Herausforderung um den AI Chasm zu überwinden. Der sogenannte Wille bzw. die Kultur. Eine umfassende Datenkultur ist Voraussetzung um aus dem Elfenbeinturm der technologischen Innovation auszubrechen und ein weitreichendes Verständnis einerseits, aber auch eine umfassende Akzeptanz von datenbasierten Produkten im Unternehmen andererseits zu schaffen. 

Eine Datenkultur zu etablieren ist oft sogar schwieriger und auch relevanter für eine erfolgreiche Überwindung des AI Chasm als ein umfassendes Enablement. Ein schönes Zitat in diesem Zusammenhang ist “Culture eats strategy for breakfast”. Denn nur wenn die Kultur es erlaubt, im Optimalfall sogar begünstigt, können strategische Themen auch umgesetzt werden. Die “Brechstange” führt selten zum Erfolg, sondern schafft oft Widerstand.

Warum ist also eine weitreichende Datenkultur wichtig und was beinhaltet sie? Generell gibt es zwei Teile einer nachhaltigen Kultur zum datenbasierten Arbeit. Erstens muss das Wissen ob die Methodik, das Vorgehen, die Vor- und Nachteile und dem Potential von Data Science als umfassendes Thema etabliert und verbreitet werden. Dies schafft ein Verständnis, das über populärwissenschaftliche Information hinausgeht und bildet die Basis für den zweiten Teil. Dieser ist die umfassende Akzeptanz von datenbasierten Produkten und deren Effekten. Denn nur wenn im Unternehmen eine wohlwollende Einstellung gegenüber dem Thema Big Data und A.I. vorherrscht, ist es möglich die Vorzüge aufzuzeigen und den Effizienzgewinn auch zu operationalisieren. Angst muss genommen und Lust auf Innovation geschürt werden. Dann hat man die Möglichkeit, datenbasiertes Arbeiten zum Erfolg zu führen.

Der Erfolg: Wie kann Erfolg von datenbasierter Arbeit gemessen und als Feedback genutzt werden?

Der dritte Aspekt um den AI Chasm zu überbrücken ist die Schaffung, Dokumentation und das Rückspielen von Erfolg. Das Prinzip ist sehr einfach: Schafft man es, Erfolg messbar zu machen und diesen quantifizierten Erfolg ins Unternehmen zurück zu spielen, hat man eine direkte positive Rückkopplung auf sowohl die Bereitschaft zum Enablement als auch eine Förderung der Datenkultur.

Egal ob Vorstand, Management oder Team: Es sollte immer die Frage nach dem “Wieso” und dem “Was bringt es uns” gestellt werden. Und diese Fragen gilt es zu beantworten. Nebst strategischer Wichtigkeit und auch Zukunftsfähigkeit gibt es aber auch eher greifbare Möglichkeiten wie die Definition von KPIs, das Messen des Erfolgs von Data Science Use Cases und die Promotion von der erfolgreichen Umsetzung der Anwendungsfälle im Unternehmen.

Nebst Kultur und Enablement ist der AI Chasm immer eins: Eine Frage des Erfolgs. Und das schlagendste Argument für die meisten Menschen ist nach wie vor greifbarer, einfach und schnell verständlicher Erfolg. Somit gilt es, kontinuierlich nach Wegen zu suchen, diesen Erfolg messbar zu machen. Denn dann sehen viele Kollegen auch den Nutzwert sehr praktisch statt nur theoretisch und lassen sich eher überzeugen, den Weg zur Data Driven Company mitzugehen.

Die Rolle des AI Chasm in der Data Driven Company

Zusammen genommen ist der AI Chasm ein sehr wichtiger Maturitätsschritt für jedes Unternehmen das sich zur Data Driven Company entwickeln möchte. Die Fähigkeit, mehr als nur Prototypen und kleine Projekte durchzuführen ist die Basis für das umfassende, holistische operative Arbeiten mit Daten das den Kern einer Data Driven Company ausmacht. Daher sehen wir die Aspekte, die bei der Überbrückung von datenbasierten Proof of Concepts zu datenbasierten Produkten helfen losgelöst vom AI Chasm und als zentrale Elemente in jedem Unternehmen. Es gilt nicht, nur Ad-Hoc Enablement, Kultur und Erfolgsmessung zu betreiben, sondern vielmehr müssen dies Kernwerte sein, auf die sich nebst den eigentlichen Use Cases konzentriert wird.

Veröffentlicht am

Was ist kaggle? Die Data Science Plattform einfach erklärt

Kaggle ist eine Plattform, um seine Fähigkeiten im Bereich Datenanalyse und Machine Learning zu zeigen und sich gegen andere zu Vergleichen. Als Belohnung werden oft Preisgelder über $10.000 ausgeschrieben.

Inhaltsverzeichnis

Was ist Kaggle?

Das kaggle Logo
Kaggle ist eine Wettbewerbsplattform für Data Science und Machine Learning

Kaggle ist eine auf Data Science spezialisierte Plattform, bei der regelmäßig Wettbewerbe ausgeschrieben werden. Meist geht es um die Optimierung von Machine Learning basierten Vorhersagen, zum Beispiel Time Series Forecasting oder Klassifikation. Durch reale von Organisationen bereitgestellte Daten und Preisgelder, die teilweise eine Millionenhöhe erreichen, entsteht dadurch ein gegenseitiges Messen der Fähigkeiten der Teilnehmer und die “Jagd” auf die Top Platzierungen.

Generell läuft ein Wettbewerb so ab, dass ein Unternehmen oder eine andere Organisation Daten und eine Problembeschreibung (z.B. “Vorhersage des Umsatzes im Monat X”) einstellt. Darauf basierend können die Teilnehmer oder Teilnehmer-Teams ihre Lösungen erarbeiten und hochladen (meist als ID-Prediction pair). 

Beispiel eines Kaggle Wettbewerbs mit $60.000 Preisgeld
Beispiel eines Kaggle Wettbewerbs mit $60.000 Preisgeld

Diese Lösungen werden dann automatisiert gewertet und somit das Leadership-Board geformt. Umso niedriger der Fehler, also umso besser die Vorhersage, umso höher die Platzierung. Dabei ist es abhängig vom Wettbewerb, wie die Fehler berechnet werden, meist jedoch einfach ein Squared Mean Error oder ein ähnliches Maß.

Die Geschichte von Kaggle

Kaggle wurde 2010 in Los Angeles gegründet, im Jahr 2017 durch Google übernommen und erreichte im gleichen Jahr über eine Millionen Mitglieder. Von Beginn an war Kaggle als “Competition Platform” ausgezeichnet und widmete sich der Herausforderung, Machine Learning als Optimierungsproblem zu vermarkten.

Inzwischen findet man auf Kaggle nicht nur hunderte von Wettbewerben, sondern auch eine Datenbank von öffentlich zugänglichen Datensätzen und Kurse. Somit nimmt Kaggle eine zunehmend zentralere Rolle im Werdegang von vielen Data Scientists ein, da hier erste praktische Erfahrung gesammelt werden kann, die über vorbereitete Standarddatensätze (Titanic, iris..) hinausgeht.

Wer ist die Zielgruppe für Kaggle?

Die kaggle Community
Mit zunehmender Relevanz von Data Science wächst auch die Kaggle Community

Während Kaggle anfangs mehr für erfahrene Data Scientists und Machine Learning Engineers gedacht war, deckt es inzwischen ziemlich das gesamte Erfahrungsspektrum im Bereich Data Science und KI ab. Die herausfordernden Wettbewerbe für erfahrene Data Scientists bleiben der zentrale Bestandteil von Kaggle, allerdings gibt es durch das umfassende Angebot immer mehr interessante Aspekte für Einsteiger. 

Speziell durch die veröffentlichbaren Notebooks, die Code von Teilnehmern beinhalten, können Neueinsteiger schnell Einblicke in andere Denk- und Analyseweisen erhalten und eigene Ideen umsetzen. Weiterhin gibt es relativ alte, aber dafür sehr zugängliche Wettbewerbe, die sich gut zur Wissenserweiterung eignen.

Was macht Kaggle so besonders?

Kaggle war die erste öffentliche Plattform, die sich mit dem Thema “Machine Learning als Wettbewerb” beschäftigt hat. Die Attraktivität von hohen Preisgeldern ist ein Faktor, aber alleine eine sehr hohe Platzierung in den Wettbewerben gilt oft als Auszeichnung für die Teilnehmer. Besonders hervorzuheben ist dabei die Möglichkeit Notebooks, also Scripte, zu veröffentlichen. 

Meist gibt es in jedem Wettbewerb sehr bald ein öffentlich verfügbares Notebook, das eine Basisanalyse (explorative Datenanalyse mit ggf. erster Modellierung) bereit stellt. Darauf aufbauend können Verfeinerungen erarbeitet werden. Selbstverständlich kann man auch komplett für sich selbst arbeiten, ohne Scripte zu veröffentlichen.

Beispiel eines Notebooks in einer Kaggle Competition
Beispiel eines Notebooks in einer Kaggle Competition

Häufige Fragen zu Kaggle (FAQ)

In welchen Programmiersprachen wird auf Kaggle gearbeitet?

Ob nun python oder R oder auch Java – die Erarbeitung hat keinen Einfluss auf die Wettbewerbe bei Kaggle. Da nicht das Script die Lösung ist, die bewertet wird, sondern nur die Vorhersagen als .csv, kann man diesen Output mit allem generieren was einem einfällt.

Wer allerdings direkt mit dem Kaggle Notebook Environment arbeiten möchte, ist auf python oder R angewiesen. Dafür hat er aber die Vorzüge, direkt auf den von Kaggle bereitgestellten Ressourcen zu arbeiten.

Wie wird man Kaggle Grandmaster?

Grandmaster ist die letzte Stufe des Kaggle Progression Systems. Um Kaggle Grandmaster zu werden muss in einer der vier Kategorien Wettbewerbe, Datasets, Notebooks und Diskussion kontinuierlich herausragende Leistung erbracht werden. 

Beispiel eines kaggle Grandmaster Profils
Der Kaggle Competitions Grandmaster Titel ist der begehrteste der vier Grandmaster

Um zum Beispiel Notebook Grandmaster zu werden benötigt man 15 Goldmedaillen, wobei eine Medaille für 50 Upvotes steht, neue Mitglieder und alte Posts ausgeschlossen sind. Folglich muss man in 15 verschiedenen Wettbewerben eine außergewöhnlich gute Grundanalyse veröffentlichen, um Kaggle Grandmaster zu werden. Die meisten setzen Kaggle Grandmaster jedoch mit der Kategorie “Competitions” gleich, da hier die Analysen bewertet werden. Hier ist üblicherweise eine Top10-Platzierung in etlichen Wettbewerben nötig; und das bei mehreren Tausend Teilnehmenden.

Insgesamt ist die höchste Stufe im Kaggle Progression System somit 4x Kaggle Grandmaster, etwas, was bisher sehr wenig Personen erreicht haben. Genau genommen mit Stand 20.01.2021 genau drei von über 150.000 aktiven Teilnehmern: Chris Deotte, Vopani und Abhishek Thakur.

Das Kaggle Titanic Data Set

Screenshot des kaggle titanic data sets
Kaggle bietet einen sanften Einstieg in ihre Plattform durch das Titanic Dataset

Nicht nur bei Kaggle, sondern generell im Bereich Data Science kommt oft das Titanic Dataset zum Einsatz, so man Klassifikation praktisch umsetzen möchte. Kaggle führt seine neuen Nutzer direkt durch die Analyse des Datasets als eine Art Tutorial, wie Kaggle als Plattform funktioniert und wie man Lösungen einreicht.

Ist Kaggle kostenlos?

Ja, eine Kaggle Mitgliedschaft ist kostenlos. Um Datensätze herunter zu laden oder an den Wettbewerben teilzunehmen muss man jedoch registriert sein.

Was kann man bei Kaggle gewinnen?

Üblicherweise haben Kaggle Competitions Barpreise im unteren fünfstelligen Bereich, aber auch höhere Preisgelder sind möglich. Es gibt auch Wettbewerbe ohne Gewinn oder mit anderen Preisen wie zum Beispiel Mitgliedschaften bei Unternehmen oder ähnliches.

Wo finde ich Datasets bei Kaggle?

Kaggle hat inzwischen eine eigene Sektion nur für öffentlich zugängliche Datensätze: https://www.kaggle.com/datasets

Um die Daten herunterzuladen muss man allerdings registriert sein.

Wem gehört die Plattform Kaggle?

Gegründet und geführt wird die Plattform von Anthony Goldbloom und Ben Hamner. Inzwischen hat Google die Plattform gekauft und ist somit der Besitzer. 

Wer sollte bei Kaggle mitmachen?

Wir empfehlen Kaggle mindestens einmal ausprobiert zu haben. Nur wer viel Zeit und Erfahrung mitbringt, wird auch gute Ergebnisse abliefern können, von daher kommt es wie üblich auf eine Priorisierung an. Generell gilt aber, wenn jemand noch kaum praktische Erfahrung im Bereich Machine Learning sammeln konnte, kann Kaggle ein guter Startpunkt sein, um sich wirklich um die Probleme im Bereich Data Science zu kümmern.

Veröffentlicht am

Der Clustering Guide: Definition, Methoden und Beispiele

Fünf rote Spielfiguren in einer Gruppe mit einer schwarzen Spielfigur in einer anderen, die etwas abseits ist

Als Clustering, zu Deutsch “Clusteranalyse”, wird eine Kategorie von Algorithmen im maschinellen Lernen bezeichnet, die Daten in ähnliche Gruppen sortiert.

Der Vorteil von Clustering ist, dass die Methode als Unsupervised Machine Learning Algorithmus kein Vorwissen über die Daten benötigt und somit rein auf Ähnlichkeiten innerhalb der Daten operiert. Die Anwendung von Clusteringalgorithmen erfreut sich breiter Beliebtheit, von der Gruppierung von Kunden oder Produkten über die Ausreisserdetektion im Banking bis hin zur Nutzung als Spamfilter. In diesem Artikel starten wir mit einer Definition von Clustering, bevor wir die verschiedenen Methoden und Algorithmen vorstellen.

Inhaltsangabe

Definition von Clustering: Was ist das?

Einfach gesagt ist Clustering eine Methode im maschinellen Lernen, um Datenpunkte in Gruppen zu ordnen. Dabei werden Ähnlichkeiten der Daten (zum Beispiel ähnliches Alter, das gleiche Geschlecht) genutzt, um möglichst homogene Gruppen zu identifizieren (zum Beispiel junge, männliche Personen). Clustering arbeitet hierbei ohne vorhandenes Wissen, welche Einträge sich ähnlich sind, sondern berechnet die Ähnlichkeiten rein auf der Datengrundlage. Daher ist Clustering eine geeignete Methode um ohne Vorwissen Gruppen oder Segmente zu generieren und daraus Wissen abzuleiten.

Clustering identifiziert Gruppen von Daten anhand der Erkennung von Ähnlichkeiten
Clustering identifiziert Gruppen von Daten anhand der Erkennung von Ähnlichkeiten

Die Ziele vom Einsatz von Clustering können grob in zwei Kategorien eingeordnet werden. Die erste Kategorie zielt darauf ab, ähnliche Datenpunkte zu kombinieren und somit Komplexität zu verringern. Die andere Kategorie versucht Datenpunkte zu identifizieren, die eben nicht zu einer großen Gruppe gehören und damit Besonderheiten aufweisen. Diese Kategorie nennt man Outlier-Detection, auf Deutsch Ausreissererkennung. In beiden Kategorien ist das Ziel ähnliche Gruppen zu identifizieren, um entsprechend angepasste Maßnahmen durchzuführen.

Dabei gibt es viele Themen bei denen dieser Erkenntnisgewinn Anwendung findet. Ob nun Kundenclustering, Produktclustering, als Fraud-Detection oder als Spamfilter – Clustering ist eine sehr versatile Herangehensweise im Bereich Machine Learning und Data Science.

Clustering als Methode im Unsupervised Machine Learning 

Clustering als Methode gehört in den Bereich von Machine Learning, zu deutsch maschinellem Lernen. Hierbei ist es genauer als “Unsupervised Machine Learning”, also unüberwachtes Lernen klassifziert. Unsupervised Learning bedeutet, dass die Daten keine Zielvariable beinhalten, an denen sich der Algorithmus ausrichtet, sondern die Muster und Zusammengehörigkeiten rein auf den Daten selbst berechnet werden.

Da Clustering eine Methode im Machine Learning ist, fällt es auch in die Überkategorie Artificial Intelligence, zu Deutsch künstliche Intelligenz (KI). Algorithmen der künstlichen Intelligenz lernen anhand von Daten und können Muster oder Wissen ohne festgelegte Regeln extrahieren. Daher ist Clustering besonders interessant im Bereich Data Mining einzusetzen, um vorliegende Daten auf noch unbekannte Faktoren zu untersuchen.

Beispiele für den Einsatz von Clustering in Unternehmen

Kundengruppierung und Kundensegmente mittels Clustering

Ein sehr häufiges Anwendungsgebiet für Clustering ist der Einsatz im Marketing und der Produktentwicklung. Der Algorithmus wird hierbei genutzt, um sinnvolle Segmente ähnlicher Kunden zu identifizieren. Die Ähnlichkeit kann auf den Stammdaten (zum Beispiel Alter, Geschlecht), auf Transaktionsdaten (zum Beispiel Anzahl Einkäufe, Warenkorbwert) oder auch anderen Verhaltensdaten (zum Beispiel Anzahl Serviceanfragen, Dauer Mitgliedschaft im Loyaltyprogramm) basieren.

Hat man Kundencluster identifiziert, können individuellere Aktionen ausgerollt werden. Zum Beispiel ein personalisierter Newsletter, individuelle Angebote, verschiedene Arten von Serviceverträgen oder andere Aktionen sind die Folge von diesem besseren Kundenverständnis.

Clustering als Spamfilter

Ein weiteres interessantes Beispiel für Clustering im Einsatz im Alltag ist die Nutzung als Spamfilter. Hierbei werden Meta-Attribute von E-Mails (zum Beispiel Länge, Zeichenverteilung, Attribute über den Header..) eingesetzt, um Spam von realen E-Mails zu separieren. 

Produktdatenanalyse: Gruppen, Qualität und mehr

Als anderes Beispiel für den Einsatz von Clustering im Unternehmen kann man die Nutzung von Clustering in der Produktdatenanalyse anführen. Produktdaten sind sehr zentrale Stammdaten in jedem Unternehmen und oft gelten sie als unter-gepflegt und unklar ob sie die beste Struktur aufweisen.

Clustering kann zum Beispiel helfen, Kategoriebäume und Produktdatenstrukturen zu entwickeln indem die Ähnlichkeit von Produktkategorien oder einzelnen Produkten anhand ihrer Stammdaten eingesetzt wird. Auch die Preisstrategie kann unterstützt werden, um zu sehen, welche Produkte faktisch sehr ähnlich sind und somit gegebenenfalls in den gleichen Preisbereich fallen.

Als zusätzliches Anwendungsgebiet im Produktdatenumfeld kann man die Produktdatenqualität anführen. Clustering kann helfen zu erkennen welche Produkte eine schlechte Datenqualität ausweisen und darauf basierend Empfehlungen für eine Korrektur geben.

Betrugserkennung mittels Clustering

Ein Beispiel von dem sowohl Konsument als auch die Unternehmen profitieren ist die Outlierdetection im Sinn einer Betrugserkennung. Banken und Kreditkartenunternehmen sind sehr aktiv in diesem Bereich und setzen (unter anderem) Clustering ein, um außergewöhnliche Transaktionen zu detektieren und zur Prüfung vorzumerken.

Welche Methoden und Algorithmen gibt es im Clustering?

Eine Übersicht über eine Vielzahl an Clustering Algorithmen und Methoden und deren Erfolg bei verschiedenen Daten
Das Verhalten verschiedener Clustering-Algorithmen und deren Trennschärfe. (Quelle)

Es gibt im Clustering wie in vielen anderen Bereichen des Machine Learnings inzwischen eine große Vielfalt an Methoden, die eingesetzt werden können. Je nach Anwendungsfall und vor allem Datenbasis kann dabei jeder Algorithmus ein anderes Ergebnis liefern. Dass dabei “anders” nicht immer besser oder schlechter ist, lasse ich bewusst offen. Denn Daten können auf viele Arten gruppiert und getrennt werden, vor allem wenn man von einem hochdimensionalen Raum spricht. Dies macht eigentlich erst die Komplexität von Clustering aus: den richtigen Algorithmus für den vorliegenden Anwendungsfall anzuwenden. 

Im Folgenden möchten wir vier der prominentesten Clusteringalgorithmen vorstellen, bevor wir weitere Algorithmen zumindest stichpunktartig beschreiben.

k-Means als Beispiel für partitioning clustering

Partitioning clustering, auf Deutsch partitionierende Clusteranalyse, ist mitunter der bekannteste Clusteringalgorithmus. k-Means ist die dabei der am häufigsten genutzte Algorithmus in dieser Kategorie. Dabei steht das “K” für die Anzahl an zu definierenden Clustern, während “means” für den Mittelwert, also wo das Zentrum des Clusters steht. 

Wie der Name somit bereits sagt, sucht sich k-Means für jeden ihrer Cluster einen Punkt, bei dem die Varianz zu allen umliegenden Punkten möglichst gering ist. Dies geschieht in einem iterativen Verfahren:

  1. Initialisierung: Zufällige Auswahl von K Zentren
  2. Zuweisung aller Datenpunkte zum nächstliegenden Zentrum, gemessen an einer Distanzmetrik
  3. Verschieben der Zentren in den Mittelpunkt aller zugeteilten Datenpunkte
  4. Gehe zu 2), ausser ein Abbruchkriterium ist erreicht

Dabei ist die Distanzmetrik der Abstand zwischen dem Datenpunkt und dem Cluster-Zentrum, wobei hier eine Bandbreite an Berechnungsmethoden eingesetzt werden kann (z.B. Euklidischer Abstand, Manhattan-Distanz). Zum Beispiel ist ein Mensch mit dem Alter 18 und der Körpergröße 160cm einem anderen Menschen mit dem Alter 20 und der Körpergröße 170cm näher als einem Menschen mit 60 Jahren und einer Größe von 190cm.

Ist der Algorithmus terminiert, hat also das Abbruchkriterium (z.B. Anzahl Durchgänge oder geringe Veränderung zum vorhergehenden Schritt) erreicht, gibt er für jeden Datenpunkt das Zentrum des am nähesten liegendsten Clusterzentrums aus.

Anwendungsgebiete und Besonderheiten von k-Means

Dass k-Means der am meisten genutzte Clustering-Algorithmus ist, geht auf seine Eigenschaften zurück. Einerseits ist er sehr einfach zu implementieren, andererseits skaliert er gut auch bei großen Datenmengen. Durch die Variation der Clustergröße kann man das Ergebnis gut iterativ steuern. 

Die Nachteile bei k-Means sind, dass man die Clustergröße eben selbst festlegen muss, dass er sich primär für kreisförmige (sphärische) Cluster eignet und nur numerische Daten verarbeiten kann. Zusätzlich ist k-Means anfällig für Ausreisser, so dass ein Augenmerk auf das Preprocessing der Daten gelegt werden muss.

Hierarchisches (agglomeratives) Clustering

Neben k-Means ist hierarchisches Clustering einer der am häufigsten genutzten Algorithmen. Hierbei wird jedoch nicht vorab die Anzahl an Clustern definiert, sondern jeder Datenpunkt startet im eigenen Cluster und wird dann mit dem nähesten zusammengefasst. Grob sieht der Algorithmus folgendermaßen aus:

  1. Initialisierung: Jeder Datenpunkt ist ein Cluster
  2. Linkage: Für jeden Cluster wird der naheliegendste gemäß Distanzmetrik gefunden und diese Cluster zusammengeführt
  3. Gehe zu 2), außer ein Abbruchkriterium ist erreicht

Dabei ist der der relevante Teil offensichtlich die Linkage, also das Finden und Zusammenführen von zwei Clustern. Es gibt im Groben vier Arten von Linkage: Single Linkage, Average Linkage, Complete oder Maximum Linkage und Ward Linkage: 

  • Single Linkage, der einfachste Fall, nutzt die beiden einzelnen Datenpunkte innerhalb von zwei Clustern, die die geringste Distanz haben. Somit ist hierbei eine hohe Varianz “gut” für einen Cluster, da damit mehr andere Datenpunkte erreicht werden.
  • Average Linkage vergleicht die Distanz von jedem Datenpunkt zu jedem anderen Datenpunkt eines anderen Clusters und nimmt dann deren Mittelwert. Folglich sind es nicht “Ausreisser” die bestimmen ob Cluster zusammengefügt werden, sondern die gesamte Komposition.
  • Complete (Maximum) Linkage kehrt Single Linkage um und nimmt nicht die naheliegendsten Datenpunkte, sondern die am weitesten auseinander liegenden und wählt davon das Minimum zu den anderen Clustern. Folglich konzentriert es sich eher auf “Nicht-Ausreisser”.
  • Ward Linkage nach Joe H. Ward, Jr. (1963) und vergleicht die Varianz von möglichen zusammengefügten Clustern. Als Varianzminimierungsverfahren ist es somit sehr ähnlich der k-Means Optimierung und versucht möglichst homogene Cluster zu formen.
Das Dendrogram einer hierarchischen Clusterung
Hierarchisches Clustering sortiert jede Entität in einen Cluster und führt diese dann zusammen. Somit entsteht ein Dendrogram, das einfach auf die gewünschte Clusteranzahl reduziert werden kann.

Anwendungsgebiete und Besonderheiten von hierarchischem Clustering

Hierarchisches Clustering hat die Besonderheit, dass man man genau die Zusammensetzung der Cluster bis auf Einzeldatenebene verfolgen kann. Dies macht die Methode besonders attraktiv in Gebieten, in denen man die Cluster in ihrer Zusammensetzung interpretieren möchte oder wenn vorab unklar ist, wie viele Cluster man festlegt.

Basierend auf diesen Gedanken machen alle Anwendungsfälle in denen die Nähe von einzelnen Datenpunkten interessant ist besonders mit hierarchischem Clustering Sinn. Zum Beispiel die Nähe von Personen oder Produkten kann sehr flexibel analysiert und in beliebig viele (oder wenige) Cluster formiert werden. Die daraus visualisierbaren Grafiken (“Dendogramm”) erlaubt es besonders visuell die Erkenntnisse zu vermitteln. 

Schwierigkeiten hat hierarchisches agglomeratives Clustering hingegen durch die hohe Ressourcenanforderungen und Gruppierungseffekte die mehrere Cluster (unrechtmäßig) verbinden. Zum Beispiel kann durch Single-Linkage eine Art Brücke zwischen zwei Clustern geschlagen werden, die aber faktisch (noch) nicht zusammengehören, weil der Abstand zwischen den einzelnen Datenpunkten kleiner ist als die Dichte innerhalb der Cluster. Zuletzt ist es noch eine Herausforderung, zu bestimmten welche Anzahl an Clustern genau Sinn macht – hier sind sowohl Erfahrung als auch Domänenwissen gefragt.

DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Density-Based Spatial Clustering of Applications with Noise, auf Deutsch dichtebasierte räumliche Clusteranalyse mit Rauschen, ist ein Clusteringalgorithmus der vor allem im hochdimensionalen Raum oder zur Detektion von Ausreissern eingesetzt wird. Er basiert darauf, dass naheliegende Punkte zum gleichen Cluster gezählt werden, falls sie genug andere Punkte erreichen. Ist dies nicht der Fall, wird der Punkt als “Noise”, also Rauschen, definiert. Der High-Level Algorithmus funktioniert folgendermaßen:

  1. Für jeden Datenpunkt, stelle fest wie viele Datenpunkte nahe bei ihm liegen
  2. Wenn die somit zusammenhängenden Datenpunkte einen Grenzwert überschreiten, gilt es als Cluster mit Kernpunkten welche “dicht” sind
  3. Sind Datenpunkte von einem Kernpunkt erreichbar, aber erfüllen nicht den Grenzwert, gelten sie als dichte-erreichbar
  4. Sind Datenpunkte von keinem Kernpunkt erreichbar, gelten sie als Rauschen

Der Algorithmus wird durch zwei Parameter gesteuert: Die Länge des Grenzwerts (Epsilon, “Nachbarschaftslänge”) und die Mindestanzahl an Datenpunkten eines Clusters (minPoints). Erhöht man Epsilon, erlaubt dies für mehr Punkte im gleichen Cluster, man verliert allerdings Trennschärfe und legt ggf. mehrere Cluster zusammen. Erhöht man die Mindestanzahl, werden weniger Cluster erkannt und mehr Datenpunkte in Noise oder dichte-erreichbar eingeordnet.

Anwendungsgebiete und Besonderheiten von DBSCAN

DBSCAN hat einige Vorteile im Vergleich zu anderen Clusteringalgorithmen wie k-Means. Zum Beispiel kann DBSCAN Cluster jeder Form detektieren und differenzieren, nicht nur sphärische wie k-Means. Auch dass die Dichte der Cluster und nicht nur die Distanz mit einbezogen wird macht DBSCAN robuster gegenüber Ausreissern als andere Algorithmen. 

Probleme hingegen sind, dass durch die beiden Parameter sehr stark die Verhaltensweise des Algorithmus gesteuert wird. Dies erfordert viel Erfahrung oder zumindest Experimentierfreudigkeit. Weiterhin kann DBSCAN nicht partitioniert werden, da zu jedem Zeitpunkt alle Punkte in Verbindung gebracht werden müssen, was Probleme bei der Skalierung mit sich bringt.

Fuzzy Clustering (c-Means)

Fuzzy Clustering (auch c-Means oder Soft-k-Means genannt) ist, wie der Name schon sagt, ein Algorithmus, der Punkte nicht fix einem Cluster zuordnet sondern mit Wahrscheinlichkeiten arbeitet. Folglich kann jeder Datenpunkt zu verschiedenen Wahrscheinlichkeiten mehreren Clustern gehören.

Wie an den alternativen Namen c-Means bzw. Soft-k-Means zu sehen, basiert der Algorithmus auf dem gleichen Prinzip wie k-Means, berechnet allerdings Wahrscheinlichkeiten statt fixe Clusterzugehörigkeiten. Ebenso werden die Clustermittelpunkte basierend auf den Wahrscheinlichkeiten berechnet. Somit liefert Fuzzy Clustering eher eine Verteilung der Punkte als Zuordnungen.

Anwendungsgebiete und Besonderheiten von Fuzzy Clustering

Die gleichen Vor- und Nachteile von k-Means gelten auch für Fuzzy Clustering. Was allerdings ein Unterschied ist, ist die sanfte Zuordnung zu Clustern mittels Wahrscheinlichkeiten, was andere Anwendungsfälle zulässt. Zum Beispiel in der Zuordnung von Kunden macht es sehr viel Sinn, jeder Person eher eine “Nähe” zu einem Prototyp zuzuweisen als binäre Segmente. Als Problem zeigt sich allerdings, dass durch die Multidimensionalität der Wahrscheinlichkeiten auch eine höhere Anforderung nötig ist als bei k-Means.

Weitere Clustering Algorithmen

  • Model-based Clustering: 
  • Divisive Clustering: 
  • Relocation Algorithms: 
  • K-Medoids: Ähnlich wie K-Means, jedoch wählt K-Medoids echte Datenpunkte als Mittelpunkte statt des Durchschnitts aller Objekte.
  • Subspace Clustering: Subspace Clustering versucht 2D-Bereiche zu definieren, die ähnliche Objekte zusammen fasst.
  • Projection Technique: 
  • Co-Clustering Technique: 
  • K-Prototypes: Gut geeignet für den Umgang mit kategorischen Variablen.

Häufige Fragen im Clustering (FAQ)

Was ist eine Distanzmetrik?

Die Distanzmetrik definiert die Berechnung der “Ähnlichkeit” zwischen zwei Punkten. Als einfachsten Fall kann man im eindimensionalen Raum einfach die Differenz zwischen zwei numerischen Werten (zum Beispiel Alter) nehmen, aber auch die absolute Differenz, die Potenz der Differenz, die logarithmische Differenz sind mögliche Ansätze für eine Distanzmetrik.

Interessanter wird es offensichtlich wenn man über eine mehrdimensionale Distanzmetrik spricht. Hier gibt es eine ganze Bandbreite an etablierten Distanzmetriken wie die euklidische Distanz, die Manhattan Distanz oder die Cosine Distanz. Jede der Metriken hat wie üblich Vor- und Nachteile und in jedem Machine Learning Algorithmus spielt die Distanzmetrik eine zentrale Rolle, da sie definiert wie sensitiv der Algorithmus auf Abweichungen reagiert und wie er sie interpretiert.

Wie legt man die optimale Anzahl an Clustern fest?

Oft ist unklar, wie viele Cluster man erstellen möchte. Vor allem bei Partitionsmethoden wie k-Means muss man sich vorab entscheiden, auf welches “k” man optimieren möchte. Hierbei kommen Methoden wie die Elbow-Method, das Average Silhouette Model oder die Gap Statistic Method zum Einsatz. Im Prinzip geht es immer darum, durch die iterative Berechnung verschiedener Clustergrößen (z.B. 2 bis 10) die Anzahl zu finden, die am besten zwischen den Clustern differenziert.

Ein Graph in dem die Varianz innerhalb der Cluster mit zunehmender Anzahl an Cluster abnimmt
Die “Elbow Method” visualisiert die Varianz innerhalb der Cluster nach Anzahl an Gruppen. Bei geringem Varianzverlust wird für eine ausreichende Anzahl an Clustern argumentiert.

Neben diesen statistischen Berechnungen werden in der Praxis wird allerdings auch oft mit verschiedenen Clustergrößen experimentiert, um eine passende Größe für das vorliegende Problem zu finden. Hierbei werden auch teilweise statistisch optimale Analysen ignoriert, da die Fragestellung aus dem Business (z.B. “Ich möchte vier Newsletter-Gruppen”) Bedingungen vorgeben oder Erfahrung (z.B. “Wir denken in drei Kundenmaturitäten”) einen großen Einfluss haben.

Um all diese Information zusammen zu führen, gibt es in verschiedenen Softwarepaketen inzwischen auch kumulative Herangehensweisen, die viele Optimierungsmethoden (z.B. Elbow, Silhouette..) einsetzt und dann die häufigste Clusteranzahl als Empfehlung ausgibt. In R ist dies zum Beispiel NbClust() im gleichnamigen Paket, das ungefähr 30 Methoden für k-Means vergleicht. 

Welche Rolle spielt Datenqualität im Clustering?

Datenqualität ist wie in jeder datenbasierten Vorgehensweise hochrelevant. Da Clustering direkt auf den Daten arbeitet und diese als Indikatoren für die Gruppierungen nutzt, hat schlechte Datenqualität selbstverständlich nochmals schwerwiegendere Folgen. 

Neben genereller schlechter Datenqualität gibt es noch vereinzelte Fälle von Ausreissern. Hier gibt es zwei Faktoren zu beachten. Einerseits ist Clustering sehr gut geeignet um Ausreisser zu detektieren, was somit direkt der Anwendungsfall wäre. 

Ist dies jedoch nicht das Ziel, kann der Algorithmus durch Ausreisser negativ beeinflusst werden. Vor allem Algorithmen die direkt auf Distanzmetriken arbeiten wie k-Means sind sehr anfällig für Outlier. Daher gilt es, die Datenqualität sehr kritisch zu betrachten und ggf. zu korrigieren.

Wie gehe ich mit Redundanz (Features mit hoher Korrelation) im Clustering um?

Redundante Features, also Variable die sich sehr ähnlich oder sogar komplett gleich sind, haben einen hohen Einfluss im Clustering. Bei ungewichteten Attributen führt dies im einfachsten Fall dazu, dass ein Feature (z.B. Gewicht) doppelt (z.B. einmal in Gramm und einmal in Kilogramm) gewichtet wird. 

Nun gibt es mehrere Ideen, wie man diese Redundanz / Korrelation von Features angeht. Der erste Weg ist definitiv sich einer Korrelation bewusst zu werden, also mittels einer Korrelationsmatrix o.ä. Analysen die Korrelationen zu identifizieren. Es gibt auch Clustering-Distanzmetriken die Korrelationen zwischen Metriken als Distanz nutzen, namentlich die Mahalanobis distance. 

Nebst der Einsicht dass es so ist, muss man entscheiden ob und falls ja wie man korrigiert. In vielen Fällen möchte man redundante Features ausschließen oder noch besser heruntergewichten. Zweiteres hat den Vorteil, dass minimale Interaktionseinflüsse nicht entfernt werden, was bei einem kompletten Ausschluss der Fall ist. 

Generell sei gesagt, dass hohe Korrelationen ein starkes Gewicht auf eine bestimmte Metrik legen können, die unerwünscht ist. Daher gilt es sich vorher sehr intensiv mit den vorliegenden Daten vertraut zu machen, um Redundanzen zu identifizieren.

Wie gehe ich mit sehr vielen Variablen um?

Eine sehr hohe Anzahl an Variablen führt meist zu sehr hoher Laufzeit der Algorithmen und führt gegebenenfalls dazu, dass minimale Effekte zur Differenzierung der Cluster genutzt werden. Was oft eingesetzt wird ist, ist eine principal component analysis (PCA) zur Featureselection. Diese Auswahl von Metriken überprüft, welche Features überhaupt eine hohe Varianz innerhalb der Daten auslösen. Somit kann die Anzahl der Variablen reduziert und andere Probleme umgangen werden. 

Welche Vorverarbeitungen (Preprocessing) sind im Clustering üblich?

Die Vorverarbeitungsschritte sind abhängig vom eingesetzten Clusteringalgorithmus, aber es gibt einige generelle Schritte die vorab durchgeführt werden:

  • Missing Data / fehlende Daten: Wenn einzelne Dateneinträge fehlen, muss entschieden werden wie damit umgegangen wird. Zum Beispiel durch entfernen der Einträge, der Attribute oder Imputation kann Missing Data behoben werden.
  • Curse of dimensionality: Bereits kurz angesprochen kann eine sehr hohe Anzahl an Features negative Effekte haben. Daher versucht man die Anzahl auf maximal ca. 20 – 30 Features zu halten.
  • Data Normalization: Daten in einem Ausgangsformat kann massive Auswirkung auf die Ergebnisse der Berechnung der Distanzen haben. Zum Beispiel hat eine Distanz in der Variable “Gewicht” eine höhere Auswirkung als “Länge in Millimeter”. Daher normalisiert man die Daten, zum Beispiel mittels z-Transformation.
  • Categorical Variables: Nicht alle Algorithmen können kategorische Features, also zum Beispiel “Geschlecht”, verarbeiten. Entsprechend müssen die Daten entweder in Zahlen transferiert werden (z.B. “groß / klein” in “10 / 100”) oder mittels One-Hot-Encoding in binäre Variablen (z.B. “schwarz / grün” in “schwarz -> 1 / 0, grün -> 0 / 1).

Die Rolle von Clustering in Unternehmen

Als eine der zentralen Kategorien im Bereich Machine Learning, Clustering nimmt eine sehr zentrale Rolle in Unternehmen ein, die Data Science einsetzen. Clustering hat eine Bandbreite an Einsatzmöglichkeiten und kann somit kreativ auf viele Probleme im Business angewandt werden.

Fachlich ist Clustering auch etwas einfacher als komplexe neuronale Netzwerke oder Time Series Analysen, so dass es gut auch von Junior Data Scientists oder anderen Kollegen eingesetzt werden kann. Und der Effekt kann sehr hoch sein: Wenn ich meine Kunden besser kennenlerne, Ausreisser in meinen Transaktionen dargelegt bekomme oder die Datenqualität sukzessive automatisch erhöhen kann, hat dies einen großen Wert.

Daher empfehlen wir definitiv den Einsatz von Clustering im Unternehmen und freuen uns über spannende Anwendungsfälle.

Weiterführende Informationen & Tutorials

Clustering in python

Folgend ein Video-Tutorial wie man Clustering in python umsetzen kann:

Clustering in R

Hier eine Version eines Video-Tutorials über Clustering in R:

Buchempfehlung zu Clustering: Algorithmen und Methoden

Eine breitere Einführung, aber dennoch sehr detailliert auf das Thema Clustering bezogen ist das Buch “Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python”. Das Tolle am Buch ist, dass nebst theoretischer Konzepte und praktischer Übungen auch immer wieder ein Schritt zurück gegangen wird um sich die Frage zu stellen “Warum brauchen wir dies?”. 

Veröffentlicht am

Der wahre Wert von Daten

Eine Person zählt Dollar-Scheine

Daten sind das neue Öl oder auch das neue Gold im 21. Jahrhundert. Die Aktien von Technologieunternehmen wie Google oder Facebook, die Daten als Grundlage haben übertreffen sich jedes Jahr. Jedem ist klar: Daten sind etwas wert. Aber was ist genau der Wert von Daten und wie kann man ihn einsetzen?

Was ist der wahre Wert von Daten?

Wenn jemand im wirtschaftlichen Kontext von Wert spricht, ist meist monetärer Wert gemeint. “Was ist der ROI? Können wir das verkaufen?” hallt es durch die Flure und Slack-Channel der deutschen Unternehmen. 

Doch Wert hat wesentlich mehr Interpretationen als diesen einen sehr einfachen. Dazu muss man klar darlegen, dass Daten keine klassische Ressource sind, die “umgesetzt” werden muss. Daten haben einen offensichtlichen, einen potentiellen und einen langfristigen Wert.

Der offensichtliche Wert von Daten

Der offensichtliche ist der, den viele direkt erkennen: Besitzt man Daten, die einzigartig oder sehr branchenspezifisch sind, sind diese viel wert. Als Beispiel können die StreetView-Daten von Google, die Sozialdaten von Facebook oder auch IoT-Daten von Industrieunternehmen gesehen werden. Auch Unternehmen, die sich auf Datenakquise und -erhebung konzentrieren, fallen in diese Kategorie.

Solche Daten haben einen offensichtlichen Wert, da sie entweder einen direkten Wettbewerbsvorteil generieren oder weil sie als Produkt verkauft werden können. Folglich sind derartige Daten die, die sich am nähesten direkt an der Idee eines “ROIs” befinden.

Der potentielle Wert von Daten

Eine andere Art von Wert weisen Daten aus, die nicht in dieser offensichtlichen Kategorie auftreten. Die Kategorie ist mit Absicht etwas vage ausgedrückt; denn so ziemlich alle Daten, die ein Unternehmen besitzt, haben einen potentiellen Wert. Oft gilt es nur, mittels sehr expliziter Entwicklung von Anwendungsfällen und analytischer Auswertung (z.B. mittels Machine Learning) diesen Wert zu heben.

Als Beispiele für diese Art von Datenwert gelten Kundendaten, Service-Daten, Webanalytics, Marketingdaten und vieles mehr. Im Prinzip alle Daten, die durch Kunden, Lieferanten, Partner, Systeme, Prozesse oder Produkte generiert werden, haben das Potential einen eindeutigen Wert auszuweisen. Dies ist auch im Merkmal “Big Data Value” zu finden, das neue Maßstäbe für Daten im 21. Jahrhundert setzt.

Das wichtige bei dieser Kategorie ist, dass der potentielle Wert abhängig ist vom eigenen Unternehmen. Wenn manche Daten für das eine Unternehmen von sehr hohem Wert sind, können die genau gleichen Daten für ein anderes Unternehmen vollkommen irrelevant sein.

Um jedoch diesen potentiellen Wert zu identifizieren, gilt es, eine starke Stakeholder-Zentrierung zu etablieren und mit fundamentaler Expertise aus dem Bereich Data Science zu kombinieren. Nur wenn man versteht für wen man es macht und wie man es machen kann, kann man identifizieren, wie wertvoll Daten in diesem Prozess sein können.

Der langfristige Wert von Daten

Oft höre ich Menschen sagen “Ich möchte nicht blind alles speichern”. Das Problem ist: Für gute Vorhersagen mittels künstlicher Intelligenz braucht man oft viele historische Daten. Dem entgegen steht, dass Speicherplatz heute sehr günstig ist und daher kaum der limitierende Faktor ist.

Das Argument das ich hier darstelle ist, dass man es sehr häufig bereut, Daten nicht gesammelt zu haben; selten jedoch, dass man sie gespeichert hat. Dies alles selbstverständlich unter dem Dach von rechtlichen Vorgaben wie der DSGVO. Oft genug jedoch entwickelt man spät Ideen, wie man Daten einsetzen kann; hat sich aber nicht die Mühe gemacht, die entsprechenden Daten (z.B. als Rohexport in einem Data Lake) zu persistieren.

Natürlich ist es ein Pseudo-Totschlagargument zu sagen “irgendwann werden wir diese Daten noch brauchen”. Hat man jedoch einen gut strukturierte Prozesse bezüglich Data Governance, einen Datenkatalog und einen funktionierenden Data Lake zur Verfügung, kostet es kaum Mehraufwand Daten zusätzlich zu speichern. Daher ist Aufwand/potentieller Ertrag klar positiv.

Sind Daten nur gut, wenn sie monetären Wert haben?

Ein Mann hält eine leuchtende Glühbirne
Daten sind der Treiber für Innovation und müssen als Zukunftsinvest behandelt werden.

Wir haben verschiedene Kategorien von Wert für Daten kennengelernt. Bleibt noch immer die Frage: Muss die Auswertung von Daten bzw. die Daten selbst einen monetären Ertrag bilden?

Ganz einfach gesagt muss ein Unternehmen langfristig rentabel sein, um weiter zu existieren. Jedoch gilt es vor allem beim Aufbau von neuen Kompetenzen wie Datennutzung auch in die Zukunft zu investieren und zu experimentieren. 

Mehr noch; selbst wenn wir keinen genauen ROI für Daten oder deren Einsatz definieren können, gilt es dennoch, den Effekt auf das Unternehmen und dessen Kunden mit Bezug auf Loyalität, Customer Experience und Konvertierung darzustellen.

Ein einfaches Dashboard, das unseren Sales-Mitarbeitern empfiehlt welche Artikel ein Kunde braucht, ein neues Produktfeature das durch Datenanalyse entstanden ist oder die Vorhersage von Mitarbeiter-Zufriedenheit: Oft ist es schwierig, einen monetären Wert dahinter zu stellen, selbst wenn der Effekt offensichtlich ist.

Um es kurz zu machen: Ein Unternehmen ist generell auf einen gewissen Profit angewiesen. Viele langfristige, prozessuale oder transformative Themen allerdings befinden sich noch im Umbruch und können nicht direkt mit Geldwert quantifiziert werden. Daher sind alle Daten wertvoll, nicht nur diejenigen mit offensichtlichen monetären Wert.

Wie kann man den Wert von Daten quantifizieren?

Die dargestellte Argumentationskette wird vielen Top-Management Mitgliedern nicht genügen. Eine Wette auf ein zukünftiges Potential abzuschließen ist möglich, aber eben nicht verlässlich. Daher wird man gegebenenfalls darauf bestehen, den Wert von Daten zu quantifizieren, ohne die dafür notwendige Erfahrung zu besitzen.

Daher gilt es, Indikatoren für einen hohen Datenwert und ein hohes Potential festzulegen. Dazu zählen zum Beispiel:

  • Einzigartigkeit der Daten
  • Potentielle Anwendungsfälle
  • Verfügbarkeit und Zugriff auf die Daten
  • Aktualität der Daten
  • Auswirkung auf Kundenbeziehung
  • Menge und Historie der Daten
  • Strategische Bedeutung der Daten
  • Auflösung (Granularität) der Daten
  • Interessierte Fachbereiche

Ergänzt mit individuellen Metriken erlaubt dies, zumindest die unternehmensinterne Frage der Priorisierung von Datenquellen zu beantworten. Weiterhin zielt es darauf ab, die Daten als das zu betrachten, was sie sind: Ein Zukunftsinvest.

Fazit: Daten sind weit mehr wert als nur Geld

Zusammengefasst kann man sehr einfach sehen, dass Daten weit mehr Wert haben als oberflächlich erkennbar. Es gibt hunderte von Anwendungsfällen für Datenanalysen; wichtig ist nur, sich klar dafür zu entscheiden, Daten als Mehrwert zu betrachten.

Eine Quantifizierung mittels Metriken kann als etablierter Prozess helfen, allen Beteiligten zu verstehen zu geben, weshalb die Daten von Wert sind. Insgesamt sollte die Frage allerdings nicht lauten “Was ist der ROI?”, sondern vielmehr “Was ist der Mehrwert?”, so man über den Wert von Daten spricht.

Veröffentlicht am

Was sind unstrukturierte Daten: Definition und Beispiele

Definition und Beispiele für unstrukturierte Daten

Als unstrukturierte Daten bezeichnet man Daten, die nicht in einem klassischen tabellarischen Format vorliegen oder in einer Datenbank gespeichert sind. Beispiele sind Bilder, Sound-Files, Videos, aber auch Text-Daten wie Artikel. 

Im Unterschied zu strukturierten Daten benötigen unstrukturierte Daten eine andere Verarbeitungsart als herkömmlich verbreitet. So kann man beispielsweise bei strukturierten Daten einfach Rechenoperationen ausführen (z.B. Addition, Durchschnitt), bei unstrukturierten Daten hingegen nicht.

Strukturierte vs unstrukturierte Daten: Der Unterschied im Überblick

Genauer betrachtet gibt es einige Unterschiede zwischen strukturierten und unstrukturierten Daten. Im einfachsten Fall stellt man sich strukturierte Daten wie eine Excel-Tabelle vor. Jede Spalte hat einen Titel, jede Reihe mehrere Werte. Bei numerischen Inhalten können einfach Rechenoperationen durchgeführt werden wie beispielsweise die Summe eines Attributs oder der Mittelwert mehrere Spalten. 

Unstrukturierte Daten hingegen können in diesem Beispiel als Ordner auf einer Festplatte definiert werden. Hier können jede Art von Daten (Multimedia, Sound, Textdokumente, etc) gespeichert werden. Doch eine analytische Auswertung wie bei Tabellen ist nicht so einfach möglich sondern erfordert zusätzliche (Vor-)Verarbeitung.

Was ist das besondere an unstrukturierte Daten?

Während strukturierte Daten sehr bekannt und häufig auch verarbeitet sind, bieten unstrukturierte Daten in vielen Fällen noch Wissen, das nicht erschlossen wurde. Die höhere Anforderung an die Analyse ist auch der Grund, weshalb unstrukturierte Daten attraktiv für Data Scientists sind.

Ein weiterer Vorteil ist die nähere Abbildung der Realität bzw. die Möglichkeit Daten durch verschiedene Kanäle aufzunehmen. Ob nun Sensoren oder Kameras oder Mikrofone: Oft kann durch diese Datentypen mehr abgebildet werden, als kondensierte und verarbeitete numerische Werte.

Ein dritter Aspekt ist die hohe Granularität der Daten. Während strukturierte Daten in einem Data Warehouse immer mit einem Informationsverlust einhergehen, sind unstrukturierte Rohdaten per se erst einmal noch reicher an Information. Dies führt dazu, dass Data Mining auch zu weiteren Erkenntnissen stoßen kann, welche noch nicht auf herkömmlichen Analysen erschlossen wurden.

Big Data vs. unstrukturierte Daten: Was ist der Unterschied? Oder ist es das gleiche?

Eines der Hauptmerkmale von Big Data ist die Unstrukturiertheit der Daten. Daher werden unstrukturierte Daten häufig mit Big Data Algorithmen und Technologien gleich gesetzt. Die beiden Kategorien sind jedoch nicht identisch. Es gibt Big Data, die definitiv nicht unstrukturiert sind (zum Beispiel Streaming Data), als auch unstrukturierte Daten, die nicht Big Data sind (zum Beispiel einzelne Media-Assets). 

Sind Internet of Things (IoT) Streaming Daten unstrukturiert?

Der nächste Begriff der häufig im Zusammenhang mit unstrukturierten Daten genannt wird ist das Internet der Dinge (Internet of Things, IoT). IoT generiert in den meisten Fällen hochfrequente Streaming Daten. Diese können unstrukturiert sein (zum Beispiel Bilder) oder strukturiert (zum Beispiel Temperatur). Daher gibt es oft eine Korrelation zwischen dem Internet der Dinge und unstrukturierten Daten, jedoch sind die beiden Konzepte nicht identisch.

(Big Data) Technologien für unstrukturierte Daten

Während strukturierte Daten meist als Datendumps als comma-seperated-File (csv), Excel oder vor allem in Data Warehouses gespeichert werden, benötigen unstrukturierte Daten andere Datenhaltungssysteme.

Skaliert gesehen ist die einfachste Ablage für unstrukturierte Daten noch immer das berühmte “Netzwerklaufwerk”. Die korrespondierende Big Data Technologie dazu wäre in diesem Fall ein Hadoop Cluster, der nicht auf einem einzigen Server basiert, sondern (z.B. mittels Cloudtechnologie) nahezu beliebig skaliert werden kann. Dies ist vor allem für große Datenmengen nötig, aber auch Redundanz und andere Faktoren sind bestimmend. Der Zugriff auf derartige Daten erfolgt mittels Frameworks wie Spark oder auch spezialisierten Services wie Amazon Kendra für Text-Daten.

Eine andere Sparte sind Datenbanken für unstrukturierte Daten. Diese sogenannten NoSQL-Datenbanken benötigen (meistens) kein vorher fix definiertes Schema, sondern können Daten beliebigen Schemas verwalten. Im Bereich von Informationsdaten (zum Beispiel Transaktions oder Stammdaten) bietet sich zum Beispiel das JSON-Format einer MongoDB an, bei Multimediadaten wie Bildern kann eine Datenbank wie Cassandra aushelfen.

Hier noch eine grobe Übersicht an Big Data Technologien für unstrukturierte Daten:

  • MongoDB
  • Hadoop mit Spark und Databricks
  • Elastic Stack

Wie hängen unstrukturierte Daten und ein Data Lake bzw. Data Hub zusammen?

Wie bereits anskizziert werden strukturierte Daten meist in einem Data Warehouse gespeichert. Bei unstrukturierten Daten gab es historisch schnell Skalierungsprobleme, weshalb andere Big Data Technologien eingeführt wurden. Eine der Hauptlösungen ist Hadoop. Hadoop wurde dann zur Basis des originären Data Lakes – also einfach eine Dateiablage, die skaliert.

Heute sind die Gegebenheiten anders. Zwar ist nach wie vor einer der Vorteile, dass Data Lakes auch unstrukturierte Daten erfassen und speichern können (im Gegensatz zum Data Warehouse), aber auch strukturierte Daten fallen in die Kategorie Data Lake bzw. Data Hub.

Die Zukunft von unstrukturierten Daten

Während die produzierten Datenmengen kontinuierlich steigen, wird der Anteil an unstrukturierten Daten in Zukunft immer weiter zunehmen. Social Media, Voice Assistants, IoT – es gibt viele Datenproduzenten, die große Mengen an Daten produzieren werden. Durch Big Data Analytics, Data Science und Machine Learning geraten diese Arten von Daten immer mehr in den Fokus von Unternehmen.

Durch Data Lakes und andere Big Data Technologien werden unstrukturierte Daten auch zunehmend einfacher verarbeitet werden. Zusammengenommen mit dem immer steigenden Angebot werden unstrukturierte Daten in Zukunft für jedes Unternehmen eine immer größere Rolle spielen. 

Veröffentlicht am

Der Data Warehouse (DWH) Guide: Alles was man wissen muss

Ein Data Warehouse (abgekürzt “DWH”) ist eine Datenbank die strukturierte Daten zur weiteren Verarbeitung erfasst. Die häufigsten Anwendungsgebiete der Daten sind Reporting, Business Intelligence und Analytics.

Das Ziel eines DWHs ist es, möglichst einfach Daten in hoher Qualität bereit zu stellen, um nachfolgende Analyseschritte zu vereinfachen. In diesem Artikel gehen wir genauer auf die Definition eines Data Warehouses ein, zeigen die grundlegende Architektur auf und diskutieren häufige Fragen, wie zum Beispiel wie ein DWH aktuell bleibt.

Zusammenfassung des Artikels

  • Ein Data Warehouse (DWH) speichert strukturierte Daten
  • Ziel ist eine einfache analytische Weiterverwendung, vor allem Reporting, Visualisierung und Business Intelligence
  • Es bedient vor allem Business / Data Analysts und Business Stakeholder
  • Die Architektur des Data Warehouses besteht aus den Layern Staging, Storage, Data Marts und Serve
  • Es gibt eine Bandbreite an Tools um ein DWH aufzubauen, zum Beispiel AWS RedShift, Azure Synapse, SnowFlake oder eine einfache SQL-Datenbank

Inhaltsverzeichnis

Das Data Warehouse (DWH): Eine verständliche Definition

Was ist ein Data Warehouse? Wie der Name schon sagt ist es ein “Datenlager”. Der wichtige Punkt hierbei ist, dass es sich um ein geordnetes, vorher definiertes Lager handelt, das sowohl Einlagerung als auch Entnahme von Daten sehr einfach macht. Das Ziel eines DWHs ist, Daten nicht nur für operative Prozesse zu verwenden, sondern zu analysieren und Wissen daraus zu generieren.

Etwas genauer definiert ist ein Data Warehouse eine oder mehrere Datenbanken, die Daten in einem vorgegebenen Schema speichern. Ein Schema definiert die Struktur des Inhalts und wie die einzelnen Datenbanktabellen zusammenhängen. Zum Beispiel, dass die Kundennummer über alle Tabellen als Unique Identifier gilt. 

Das wichtige dabei zu verstehen ist, dass bei einem DWH die spätere Entnahme möglichst einfach und effektiv von statten gehen soll. Daher werden sowohl Schema als auch Inhalt vorher definiert, dokumentiert und auch (optimalerweise) nachhaltig gepflegt. Dieses “Schema-on-Write”-Prinzip des Data Warehouses hat selbstverständlich zur Folge, dass viel Zeit und Gedanken vorab in die Anwendungsfälle und Struktur des DWH fließen müssen.

Um einen sehr einfachen Vergleich zu ziehen, kann ein Data Warehouse wie eine gut gepflegte Excel-Tabelle gesehen werden. Die Daten sind in Spalten (Attribute) und Zeilen (Einträge) organisiert, bei dem jeder Eintrag übereinstimmen muss damit sie Sinn machen. Die Tabelle kann einfach genutzt werden um einfache Analysen, zum Beispiel Summen oder Pivottabellen, durchzuführen. 

In Realität sind Warehouses selbstverständlich ungemein komplexer. Es stellen sich viele Herausforderungen bezüglich Skalierung (Wachstum mit Anzahl an Daten), Zugriff (hunderte von Nutzern), Sicherheit (Welche Daten dürfen von wem gesehen werden?), Datenpflege (Datenqualität), Historie (Wie mit alten Daten umgehen), Versionierung (Was, wenn sich etwas an der Struktur des DWH ändert?) und mehr.

Zusammengefasst ist ein Data Warehouse eine Datenbank, in der Daten für analytische Zwecke wie Visualisierung oder Business Intelligence gespeichert werden. In den nachfolgenden Abschnitten möchten wir auf Vor- und Nachteile eines DWHs, die beteiligte Architektur, Rollen und häufige Fragen eingehen. 

Warum braucht man ein DWH?

Ein Mann betrachtet Analysen auf einem Tablet
Ein Data Warehouse fördert das datenbasierte Arbeiten in einem Unternehmen.

Ein Data Warehouse hat sich inzwischen in fast jedem mittleren oder großen Unternehmen etabliert. Doch warum braucht man überhaupt ein DWH? 

Ganz einfach gesagt ermöglicht es ein Data Warehouse, Daten aus verschiedenen Quellen zu sammeln, zu strukturieren und auszuliefern. Dies hat zum Ziel, Daten über den operativen Teil hinaus zu nutzen. Anwendungsfälle sind vor allem Reporting, Analytics und Data Science

Daher muss unsere Frage eher lauten: Warum empfinden viele Unternehmen datenbasiertes Arbeiten wie Reporting, Datenanalyse und Datenwissenschaft als relevant? Die Antwort darauf ist einfach: Weil es einen Mehrwert generiert. Sobald man Daten schnell und einfach einsetzen kann, um Fragen zu beantworten oder zumindest mehr Wissen über das eigene Unternehmen, die Kunden, Lieferanten und deren Verhalten zu generieren, hilft dies, besser zu steuern. 

Ob nun im täglichen operativen Geschäft oder strategisch: Daten helfen, bessere Entscheidungen zu treffen. Und ein Data Warehouse ist eine technologische Basis, Daten schnell und einfach dafür zu liefern.

Vorteile und Nachteile eines DWHs

Als Übersicht die generellen Vor- und Nachteile eines Data Warehouses tabellarisch aufgeschlüsselt:

VorteilNachteil
Strukturierte Daten zentral erfasstKeine unstrukturierten Daten erfassbar
Einfacher Zugriff und WeiterverwendungBusiness Rules oft nicht ausreichend definiert und dokumentiert 
Gepflegte Daten und ProzesseOft langsame Anbindung neuer Datenquellen
Fördert “data-driven thinking” durch einfache BereitstellungOft geringe Granularität / zeitliche Auflösung der Daten
Vor- und Nachteile eines Data Warehouses.

Typische Daten in einem DWH

  • Salesdaten: Die Bestellungen und Umsätze sind häufig zentral in DWHs, manuelle Forecasts hingegen sind selten zu finden.
  • ERP: Strukturierte Order-Daten sind einfach zu integrieren
  • Logistik: Je nach Unternehmen werden Logistikdaten teilweise fokussiert integriert
  • Kundendaten: Kundendaten sind teilweise sehr stark in einem DWH integriert, oft allerdings auch stark im CRM selbst verankert
  • Webanalytics: Webanalytics-Daten werden häufig extrahiert und in ein DWH integriert, da sie meist über eine einfache Schnittstelle zur Verfügung gestellt werden.

Was man hingegen nicht häufig in DWHs findet sind Daten aus den Bereichen Text (zum Beispiel Social Media, Content), Videoanalysen und ähnliche unstrukturierte Daten

Anwendung für Daten aus dem Data Warehouse

Es gibt eine Bandbreite an Anwendungen für Data Warehouse Daten. Meistens werden Daten aus dem Warehouse visuell oder tabellarisch aufbereitet, um Entscheidungsträger im Unternehmen über den Stand der Vorgänge zu informieren. Diese deskriptive, historische Analyse manifestiert sich in folgenden Anwendungen:

  • Reporting: KPIs und tabellarische Reports zu wichtigen Kennzahlen
  • Dashboards: Visualisierung des Stands und der der Entwicklung von Kennzahlen
  • Business Intelligence: Fortführende Analysen von DWH-Daten zur Identifikation von Stärken und Chancen eines Unternehmens
  • ggf. Data Science: Bei hoher Auflösung der Daten sind auch Methoden aus dem Bereich der künstlichen Intelligenz möglich

Grundlegende Data Warehouse Architektur (Beispiel)

Eine Data Warehouse Architektur besteht im Prinzip aus sechs Schichten:

Data Sources: Die Datenquellen

Die Datenquellen für ein Data Warehouse sind primär interne Daten. Systeme wie das ERP, ein CRM, ein Logistik-System oder ein Service-Tool stellen oft wertvolle Daten bereit. Doch nach und nach werden immer mehr externe Datenquellen wie zum Beispiel Webanalytics (Google Analytics, Adobe Analytics..), SalesForce oder Facebook Ads mit angebunden. Auch andere Quellen wie beispielsweise IoT Devices können Daten für ein DWH liefern, sind jedoch abhängig von der Frequenz und Granularität.

Staging: Einlesen und Aufbereiten zur Speicherung

Das Data Staging deckt die beiden ersten zwei Teile des ETL (extract-transform-load) Prozesses ab. Während dem Staging werden die Datenquellen eingeladen und aufbereitet, um sie persistent in der Datenbank abzulegen. Gegebenenfalls werden auch Daten mit anderen Datenquellen abgeglichen und/oder zusammengefügt, um ein holistischeres Bild der Realität zu liefern.

Eine besondere Herausforderung spielt auch die Extraktionsart. Bis vor einer Weile war der sogenannte “Full extract”, also ein komplettes kopieren der Datenquelle, üblich. Dadurch hatte man immer die aktuellsten Daten im DWH gespeichert und konnte sie ohne Bedenken auf Aktualität, einer der wichtigen Faktoren in Datenqualität, weiter verarbeiten. Durch die Unmengen an Daten die inzwischen üblich sind, wird dieses Vorgehen aber immer mehr zum Problem. Die Menge an historischen Daten wird zum Beispiel in Enterprise-Unternehmen oder im IoT-Bereich schnell zu groß. 

Folglich gibt es neuere Herangehensweisen, die sich auf Teil-Extraktion (“incremental extract”, zum Beispiel zeitlich begrenzt) oder auf Veränderungs-Extraktion (“Change Data Capture”, CDC) stützt. In diesem Methoden werden nur neu hinzugefügte oder veränderte Daten extrahiert. Die Voraussetzung ist zusätzlicher Modellierungs- und Verwaltungsaufwand, der große Vorteil jedoch sehr viel geringere Update-Laufzeiten des Data Warehouses.

Weiterhin müssen bereits in dieser Phase des ETL-Prozesses weitere Themen wie Historie (wie bilde ich zeitlich neue Daten ab) und Versionierung (was, wenn sich mein Datenmodell ändert?) bedacht werden, da sie einen großen Einfluss auf alle nachfolgenden Prozesse und Software-Lösungen haben. 

Storage: Persistente Speicherung der Daten

Das eigentliche Herzstück jedes Data Warehouses ist der Storage Layer zur persistenten Speicherung der Daten. Dabei ist Skalierung der kritischste Punkt: Wie kann die Datenbank auf Datenmenge und Zugriffsmenge angepasst skaliert werden?

Generell ist klar, dass Data Warehouses als solches strukturierte Daten speichern. Es gibt zwar Ausnahmen wie zum Beispiel SnowFlake, die auch semi-strukturierte Daten erlauben, aber dies ist meist nicht der Fokus. Im einfachsten Fall würde daher eine einfache SQL-Datenbank als Basis reichen.

Diese Idee verflüchtet sich allerdings schnell, so wir über große Datenmengen sprechen. In diesem Fall ist die Hardware auf der die Datenbank läuft meist der limitierende Faktor. Daher muss eine Skalierung bedacht werden. Entweder vertikal (mehr CPU oder RAM) oder horizontal (mehrere Computer). On-Premise (also im eigenen Rechenzentrum) läuft dies auf Hardware-Basis, in der Cloud sind diese Ressourcen on-Demand verfügbar.

Wichtig zu differenzieren ist der klassische Data Warehouse Prozess der ETL-Ingestion von Daten von einer ELT-Variante. Zweitere Variante hat sich mit dem Aufkommen von Data Lakes etabliert und zielt darauf ab, zuerst die Rohdaten zu speichern, bevor sie in eine strukturierte Form überführt werden. Die zwei wichtigsten Vorteile dieses Vorgehens sind, dass einerseits auch unstrukturierte Daten (z.B. Bilder, Videos) gespeichert werden können und dass die aufwendige Vorbereitung (Datenmodellierung) erst im Nachgang / bei Bedarf gemacht werden muss. 

Inzwischen ist es üblich und hauptsächlich empfohlen, selbst bei klassischen Data Warehouses alle Daten “roh wegzuspeichern” und sich erst dann um die Überführung in eine strukturierte Datenbank zu kümmern. Die Idee ist einerseits, dass Speicherung wenig kostet und somit kein “Schaden” dadurch generiert wird, andererseits dass durch Advanced Analytics immer mehr Rohdaten benötigt werden, um auch wirklich Datenpotential zu heben. 

Während die ETL-Strecke herkömmlicherweise mittels Code (z.B. python) realisiert wurde, setzen sich inzwischen immer mehr Tools (z.B. Pentaho, Talend Stitch, AWS Glue,..) durch, die diese Aufgabe übernehmen. Vor allem für standardisierte externe Datenquellen (z.B. Facebook, Google..) ist es ein einfaches, dies als Softwarelösung umzusetzen.

Data Marts: Verfeinerung und Teilausschnitte um Business-Probleme zu lösen

Während ein Data Warehouse im Grundprinzip alle Daten eines Unternehmens beinhaltet, gibt es eine nachgelagerte Abstraktionsebene: Die Data Marts. Ein Data Mart ist ein Subset von Daten, die teilweise auch anderweitig angereichert (z.B. durch unstrukturierte Daten) oder aggregiert sind.

Warum benötigt man einen Data Mart? Die Idee ist, von einer sehr hohen Komplexität auf eine geringe, domänenspezifische Ansicht zu reduzieren. Dies erlaubt Datenanalysten schneller und einfacher die relevanten Daten zu identifizieren, ermöglicht fachspezifische Ansichten auf Datensätze und reduziert technische Faktoren wie Ladezeit und Updatefrequenz.

Ein weiterer Vorteil eines Data Marts können die Zugriffs- und Sicherheitsregeln sein. Wenn das gesamte Data Warehouse mit unlimitierten Zugriff an von aussen oder innen zugängliche Applikationen angebunden werden, hat dies im Falle eines Vorfalls verheerende Auswirkungen. Bei einem Data Mart hingegen werden die Zugriffe auf dieses Subset an Daten reduziert und somit die Risiken minimiert.

Serve Layer: Bereitstellung der Daten über Schnittstellen oder Zugriff

Die letzte Data Warehouse spezifische Ebene ist der Serve Layer, zu Deutsch die Bereitstellung der Daten. Neben Sicherheitsaspekten gilt hier vor allem auch die Frage, ob die Daten rein für Visualisierungszwecke (Business Intelligence) verwendet werden sollen oder weitere Advanced Analytics basierte Anwendungsfälle geplant sind.

Generell werden SQL-basierte Data Warehouses einfach über einen Direktzugriff angebunden. Dies eignet sich für viele Anwendungen mit fester Verwertung wie Dashboards. Möchte man die gelagerten Daten hingegen etwas flexibler nutzen, zum Beispiel über automatisiert generierte Reports oder im Bereich Data Science, gibt es auch neuere Konzepte wie die zur Verfügungstellung über APIs. 

Wichtige Aspekte der Bereitstellung sind selbstverständlich Zugangskontrolle, Datensicherheit, Dokumentation (z.B. Qualität, Datenkatalog) und optimalerweise ein Self-Service-Prinzip.

Fazit der Beispielarchitektur

Die Anzahl der Schichten variiert leicht, je nachdem ob man beispielsweise Ingestion & Staging zusammengefasst oder einzeln lässt. Manche Architekturen weisen auch ETL als dem Staging nachgefassten Prozess auf, während er hier eher sowohl Ingestion, Staging als auch Storage umfasst. 

Während diese Beispielarchitektur für Data Warehouses sicherlich als Blueprint genutzt werden kann, gibt es viele Dinge die individuell beachtet und somit modifiziert werden müssen. Ob nun interne oder externe Datenquellen, ob full extract oder incremental, ob raw dump oder direkt in das Warehouse transferiert, ob high volume oder high variability: Je nachdem welche Anforderungen man an das DWH stellt muss eine passende Architektur gewählt werden.

Welche Software / Tools gibt es um ein Data Warehouse aufzusetzen?

Hier eine grobe Übersicht über Tools, über die ein Data Warehouse realisiert werden kann:

SoftwareBeschreibung
SAP Data Warehouse Cloud / SAP BW/4HANA / SAP HANAWohl das bekannteste DWH von SAP.
AWS Glue (ETL), AWS RedShift (Storage), AWS QuickSight (Visualisation)AWS-basierte Services, können ergänzt oder ersetzt werden durch anderes Services (Event Streaming, S3 storage, etc).
Azure Data Factory (ETL), Azure SQL Data Warehouse (Storage), PowerBI (Visualisation)Wie AWS, jedoch für Microsoft Cloud Services.
Oracle Data Warehousing (Storage)Oracle ist besonders stark in SQL-Datenbanken.
Alteryx (ETL, Visualisation)Die Stärke von Alteryx liegt vor allem im ETL-Prozess und dem Aufbereiten für Analysen.
Talend / Stitch (ETL)Talend fokussiert sich auf ETL.
MuleSoft (ETL)MuleSoft fährt eine API-Mesh Strategie in ihrem ETL-Prinzip.
Ein Auszug aus Technologien für ein Data Warehouse.

Ein Data Warehouse aufbauen: Grober Ablauf-Plan / Framework

Ein Projektplan mit vielen Post-Its
Der Aufbau eines Data Warehouses sollte gut geplant sein, jedoch agil umgesetzt werden.

Ein Data Warehouse im Unternehmen aufzubauen ist sehr komplex und erfordert einen langfristigen Invest. Inzwischen ist es auch üblich, DWHs nicht mehr Monolithisch-wasserfallmäßig über mehrere Jahre hinweg aufzubauen, sondern sukzessive agil zu erstellen. Daten und Anwendungsfälle werden nach und nach eingearbeitet statt eine allumfassende Lösung zu kreieren. Nichtsdestotrotz möchten wir hier grob skizzieren, welche Aspekte beim Aufbau eines Data Warehouses wichtig sind und wie diese in einem groben Framework abgearbeitet werden könnten.

  1. Identifikation und Ausformulierung der Anwendungsfälle (Stakeholder Research)
  2. Erstellung Ziel-KPIs und Hierarchie (KPI-Tree)
  3. Identifikation und Überprüfung entsprechender Datenquellen
  4. Definition der Architektur und der eingesetzten Lösungen / Software
  5. Umsetzung der Architektur und iterative Anbindung der Datenquellen (Data Engineering)
  6. Iterative Überprüfung der Daten, Visualisierung und Abnahme durch Business-Stakeholder

Wichtig zu erkennen ist, dass nebst der generellen Architektur sehr viel in einem agilen, iterativen Vorgehen umgesetzt werden sollte. Dies hat zum Hintergrund, dass damit schneller Ergebnisse sichtbar werden und gleichermaßen auch flexibler auf neue Herausforderungen reagiert werden kann. Weiterhin ist die Menge an Datenquellen in den meisten Unternehmen so hoch, dass ein Wasserfall-Vorgehen nicht realisierbar ist.

Zusammengefasst sollte der Aufbau eines Data Warehouses drei Hauptfaktoren im Blick behalten:

Welche Rollen sind an einem DWH beteiligt?

Die Idee eines Data Warehouses beruht auf der Verwendung von Daten über operative Zwecke hinaus. Folglich gibt es viele Personen, die sich mit einem Data Warehouse bzw. dessen Verwendung beschäftigen sollen:

  • BI Experten: Das Herzsstück eines DWHs sind ein oder mehrere Business Intelligence Experten. Sie kennen Aufbau, Dokumentation und Anwendung des Warehouses und organisieren die Anbindung von neuen Datenquellen. Oftmals sind sie auch direkt für die Erstellung von Reports und ähnlichem zuständig.
  • Domänenexperten: Während BI Experten eine Querfunktion darstellen, wird der Mehrwert eines DWHs in der Domäne, also zum Beispiel Sales, Marketing oder Logistik generiert. Daher sind Domänenexperten dafür verantwortlich, die richtigen Daten anzubinden und die richtigen Auswertungen zu generieren.
  • Controlling: Einer der häufigsten Ursprünge von Business Intelligence ist die Controlling-Abteilung eines Unternehmens. Daher sind sie auch oft eng an einem Data Warehouse beteiligt.
  • Datenbankadministration: Setzt man auf eine SQL-Datenbank, braucht es technische Unterstützung aus der IT.
  • Cloud Solution Engineers: Setzt man hingegen auf eine Cloud-Lösung, muss diese aufgebaut und gepflegt werden. Ob Cloud Solution Engineer oder Data Engineer oder Data Architect: Eine sehr wertvolle Rolle, um die Datenflüsse zu gewährleisten und die Infrastruktur am Laufen zu halten. 
  • Business Analysts / Data Analysts: Oft gibt es neben dem generellen BI Experten auch verantwortliche Analysten in der Domäne oder einer zentralen Einheit, die sich um die Auswertung der Daten kümmern. Hier gilt es, Domänenwissen mit Daten-Expertise zu kombinieren, um möglichst “actionable insights” zu generieren.
  • Visualisation Experts: Ist ein Unternehmen sehr bewandert im Einsatz von Daten und Dashboards, wird die Visualisierung selbst – also die Erstellung des Dashboards – ggf. sogar an Experten dafür ausgelagert.
  • Data Scientists: Eine andere Art von Konsument für Daten aus dem DWH sind Data Scientists. Sind die Daten in sehr hoher Auflösung vorhanden, kann mittels Data Mining neue Erkenntnisse herausgearbeitet werden.

Häufige Fragen zum Data Warehouse (FAQ)

Was ist ein Data Mart?

Ein Data Mart ist ein Subset an Daten eines Data Warehouses für einen speziellen Zweck. Zum Beispiel nur Marketing-relevante Daten für die Marketing-Abteilung. Somit ist es also quasi eine Art kleinere Data Warehouse eines Data Warehouses.

Data Marts werden erstellt, um die Komplexität zu reduzieren, Sicherheit zu erhöhen und den Analyseprozess zu vereinfachen.

Data Warehouse vs. Data Lake: was ist der Unterschied?

Infografik Data Warehouse vs. Data Lake
Infografik Data Warehouse vs. Data Lake

Data Warehouses speichern explizit strukturierte, vorbereitete Daten zu einem spezifischen Zweck (Analyse bzw. Business Intelligence). Data Lakes hingegen speichern sowohl strukturierte als auch unstrukturierte Daten für eine Vielzahl an (ggf. noch unbekannten) Anwendungszwecken.

Für eine detailliertere Unterscheidung, besucht unseren Artikel “Data Warehouse vs Data Lake: Der Unterschied einfach erklärt”.

DWH vs Enterprise Data Warehouse (EDW): Was ist der Unterschied?

Sowohl Data Warehouse (DW oder DWH) als auch Enterprise Data Warehouse (EDW) bezeichnen das gleiche Prinzip zur Datenspeicherung. Der einzige Unterschied kann sein, dass Enterprise Data Warehouses für große Konzerne gedacht und geplant sind. Semantisch gibt es aber keinen Unterschied.

Basiert ein Data Warehouse auf ETL oder ELT?

Generell basiert ein DWH auf ETL, also Extraktion-Transform (Staging)-Load. Die Datenmodellierung wird vorab erledigt und Daten strukturiert in die Datenbank überführt. Jedoch ändert sich die Datenlandschaft und somit auch die Rolle des DWHs. Oft sind sie in einen größeren Datenprozess eingebaut, der auf ELT basiert. Hierbei werden die Daten erst in einen Data Lake extrahiert und von dort dann mittels ETL ins DWH überführt.

Wie werden Daten im DWH geupdated?

Es gibt prinzipiell zwei Methoden: Full extract und partial / incremental extraction. Im full extract wird die gesamte Datenquelle neu ins DWH eingespeist. In der incremental extraction werden nur neue Daten hinzugefügt beziehungsweise veränderte Daten angepasst.

Wie oft wird ein Data Warehouse geupdated?

Die “Update Frequency” eines DWHs ist stark abhängig vom Unternehmen, der eingesetzten Technologie, den Datenmengen und den Anwendungsfällen. Der häufigste Fall ist wohl eine batch extraction, die einmal in der Nacht ausgeführt wird. Moderner hingegen sind höhere Update-Frequenzen oder Real-Time Data Warehouses, die zum Beispiel durch einen Event Stream gefördert werden.

Veröffentlicht am

Gehalt von Data Scientist, Data Analyst und Data Engineer

Was verdienen eigentlich Data Analysts, Data Scientists und Data Engineers? Wir stellen die Gehälter der verschiedenen Daten-Rollen vor, definieren Einflussfaktoren und geben aber auch klare Richtwerte an, womit man in den jeweiligen Positionen rechnen kann. Dabei unterscheiden wir einerseits zwischen Senioritätslevel (z.B. Junior, Senior, Lead, Chief Data Scientist) und andererseits je nach Ort (Deutschland, München, Hamburg, Berlin) um eine möglichst Präzise Schätzung abzugeben, mit welchem Gehalt ein Data Analyst, Data Scientist oder Data Engineer rechnen kann.

Inhaltsverzeichnis

Die Rolle des Gehalts für Data Analyst, Scientist und Engineer

Niemand redet sonderlich gerne, aber es ist immer ein Thema: Das Gehalt. Da Geld doch meist einen zentralen Wert im Leben einnimmt, haben viele das Bedürfnis sich beim Thema Gehalt nicht unter Wert zu verkaufen. Sicherlich ist es richtig, mit einer selbstlosen Art an seine Arbeit zu gehen und zu argumentieren, dass die Arbeit Spaß machen soll – dies ist auch absolut fundamental. Dennoch heisst dies nicht, dass man nicht seinen Fähigkeiten entsprechend bezahlt werden soll. Vor allem in konservativen Unternehmen oder für Quereinsteiger ist es oft undurchsichtig, wie viel man verdienen sollte – oder kann. Daher ist es nur richtig zu versuchen, seinen eigenen “Wert” im Vergleich zu ermitteln. 

Doch bei vielen neuen Rollen ist der Vergleich gar nicht so einfach. Schließlich gibt es bisher kaum “Chief Data Engineers” oder ähnliche Rollen in Deutschland, die als Richtwert gelten können. Um dieses Wissen jedoch möglichst vereinfacht zur Verfügung zu stellen, haben wir in diesem Artikel mehrere Quellen zum Thema Gehalt im Bereich Data Science und darüber hinaus zusammengetragen, mit unserem eigenen Wissen angereicht und zur Diskussion gestellt. 

Dass diese Liste eine Sammlung von Schätz- und Näherungswerten darstellt sollte klar sein. Das Ziel ist auch nicht, diese Website auszudrucken und in die nächste Gehaltsverhandlung zu nehmen. Viel wichtiger ist, dass man ungefähr versteht welche (finanziellen) Entwicklungsmöglichkeiten die Arbeit im Bereich mit Daten bietet und man einen Ansatz hat, sich selbst einzuschätzen.

Einflussfaktoren auf das Gehalt 

Bevor wir zu den harten Zahlen zum Thema Gehalt kommen, möchten wir noch kurz einige der wichtigsten Einflussfaktoren vorstellen. Diese müssen beachtet werden, wenn man sich an den Vergleich vom eigenen Gehalt mit Stellenausschreibungen und/oder Kollegen macht. Denn das Gehalt kann innerhalb der gleichen Position sehr stark variieren – und darauf sollte man vorbereitet sein.

Seniorität als Faktor beim Gehalt

Die Seniorität oder zumindest die Fachexpertise spielt bekanntermaßen den größten Faktor in der Höhe des Gehalts. Wir versuchen hierbei in unserem Artikel auf verschieden Fachlevel einzugehen, genauer:

  • Junior / Einstiegsgehalt: Diese Rolle hat noch keine oder kaum Berufserfahrung (0 – 2 Jahre) gesammelt und kommt meist direkt von der Uni oder als Quereinsteiger aus einem anderen Fachbereich.
  • Mid-Level: Der “Data Engineer” oder “Data Scientist” ohne Abstufung ist meist ein berufserfahrener (1 – 5 Jahre) Mitarbeiter, der als Junior eingestiegen ist, als Quereinsteiger bereits ausreichend Berufserfahrung gesammelt hat oder in der Uni im Master sehr relevante Erfahrung sammeln konnte. Auch fachfremde Uni-Absolventen mit Promotion sind häufig am Anfang in dieser Kategorie zu finden.
  • Senior: Nach mehreren Jahren Berufserfahrung in der Rolle (3 – 8 Jahre), einer passenden Promotion oder anderen Gründen für sehr guten “Fit” auf die Rolle sind Mitarbeiter in der Senior-Rolle verankert. Sie haben höhere Expertise, mehr Erfahrung und oft auch zumindest eine fachliche Weisungsbefugnis. 
  • Lead / Chief: Während die “Lead”-Rolle noch sehr fachlich verankert ist und die fachliche Teamführung betitelt, ist die “Chief”-Rolle bereits eher strategisch angelegt. Beide Rollen zeugen von fachlicher Exzellenz und (Teil-)Verantwortung für ihr jeweiliges Themengebiet.

Details zum Gehalt und dem Unterschied der Seniorität in den jeweiligen Rollen (Data Scientist, Data Engineer…) finden sich im jeweiligen Abschnitt.

Ort als Einflussfaktor auf das Gehalt

Der Arbeitsort spielt eine erhebliche Rolle bei der Höhe des Gehalts. Die Unterschiede im Gehalt zwischen einer Großstadt mit hohen Lebenshaltungskosten (z.B. München, Hamburg, Frankfurt) und anderen Orten beträgt bis zu X%. Daher ist es nicht verwunderlich, dass man in Gehaltsgesprächen manchmal über die Höhe des Angebots verwundert ist – sowohl im Positiven, als auch im Negativen.

Generell empfehlen wir, den Ort als Fixum definitiv mit ihn das angepeilte Gehalt einzubeziehen. Gibt es die Möglichkeit in Aussenstellen zu arbeiten, die bei niedrigeren Lebenshaltungskosten verankert sind, sollte man dies selbstverständlich auch in Betracht ziehen. 

Unternehmensgröße als Einfluss auf das Gehalt

Studien zeigen, dass umso größer das Unternehmen, umso höher auch das Gehalt ist. Dies macht absolut Sinn, denn etablierte (DAX-)Konzerne haben einen ganz anderen Ressourcenpool aus dem sie ziehen können als ein Startup oder eine frisch gegründete 5-Mann-Agentur.

Dabei empfehlen wir sich vorher zu informieren ob das Unternehmen – vor allem wenn es ein Konzern ist – gegebenenfalls in einem Gewerkschaftsvertrag steckt. Somit kann zumindest für Einstiegspositionen relativ gut bestimmt werden, wie das zukünftige Gehalt aussieht.

Die Branche bestimmt das Gehalt

Ein weiterer Faktor bei der Höhe des Gehalts im Datenbereich ist die Branche des Unternehmens. Die FANGs (Facebook-Amazon-Netflix-Google) dieser Welt haben aus ihrem Bedürfnis, die besten Data Engineers und Data Scientists zu rekrutieren, selbstverständlich eine ganz anderen Bezug zur Entlohnung als ein mittelständischer Industriebetrieb. 

Folglich sollte man sehr genau darauf achten in welcher Branche man tätig werden möchte und auch kann. Bei Technologiekonzernen ist man oft einer von sehr vielen (gut bezahlten) Mitarbeitern im Bereich Data Science, bei kleineren Unternehmen in der Industrie sticht vielleicht das Gehalt nicht so durch, aber man hat mehr Veränderungsmöglichkeiten.

Personalverantwortung als Faktor in der Höhe des Gehalts

Selbstverständlich spielt auch der Faktor, ob man eine Fachkraft ohne Personalverantwortung oder eben eine Führungskraftposition einnimmt eine große Rolle. Die gleiche Position – zum Beispiel Senior Data Scientist – kann mit Personalverantwortung kommen und eher strategisch aufgebaut sein oder eben sehr operativ und praktisch. 

Work-Life-Balance und andere Faktoren beim Gehalt im Data Science Bereich

Als letzten Faktor möchten wir noch die Work-Life-Balance und andere Einflüsse auf das Gesamtpaket inklusive Gehalt aufführen. Diese Faktoren sind selbstverständlich hochindividuell, sollten jedoch immer als Gesamtpaket betrachtet werden. Das Gehalt ist wichtig – ja. Aber auch die Anzahl an geleisteten Stunden, die Möglichkeit zum Homeoffice oder mobilen Arbeiten kann einen großen Stellenwert einnehmen.

Daher empfehlen wir immer, nicht nur das Gehalt als einzige Metrik bei der Evaluierung neuer Stellen zu nehmen, sondern eben das Gesamtpaket. Dies gilt es dann auch im Gespräch zu schnüren oder bei Jahresgesprächen gegebenenfalls neu festzulegen.

Informationsquellen für die gelisteten Gehälter

Um möglichst repräsentative Aussagen zum Gehalt des Data Engineers, Data Scientists und Data Analysts zu machen, stützen wir uns in diesem Artikel auf mehrere Quellen. Zum einen nutzen wir einfach Webportale die für jeden zugänglich sind und sich auf das Thema Gehalt und Gehaltsvergleich spezialisiert haben. Als zweites extrahieren wir Informationen – falls vorhanden – von Jobbören und Jobportalen. Drittens nutzen wir soziale Netzwerke wie LinkedIn und XING, um dort die Gehaltsspannen auszulesen. Und als viertes runden wir diese gesammelten Zahlen mit unserer persönlichen Erfahrung im Recruiting im Bereich Data Science ab, vervollständigen nicht vorhandene Daten und deuten auch an, wie sich die Gehälter im Bereich Data Science entwickeln werden. Für einen Detailüberblick der gesammelten Gehälter, siehe den Abschnitt “Datengrundlage” am Ende des Artikels.

Aufgaben und Gehalt eines Data Analysts

Als Data Analyst, auf Deutsch auch Datenanalyst, nutzt man Daten um Information zu extrahieren. Data Analysts beschäftigen sich daher vor allem mit der Aufbereitung, deskriptiven Analyse und Visualisierung von Daten.

Um diese Daten nicht an den Bedürfnissen der Stakeholder vorbei zu analysieren, arbeitet ein Data Analyst sehr eng mit dem Business, also Domänenexperten, zusammen. Entweder ist er hierzu selbst im entsprechenden Fachbereich tätig oder er bildet im Optimalfall ein Tandem mit mit dem Fachexperten. Mittels Workshops und iterativen Vorgehen schafft er es somit, seine Analysen, Reports und Dashboards möglichst passgenau auf die Herausforderungen im Unternehmen anzupassen.

Die Tools die ein Data Analyst dabei einsetzt sind sehr vielfältig und je nach Seniorität auch sehr technisch. Von klassischer Visualisierungssoftware wie PowerBI oder Tableau über Analyseprogramme wie Excel oder SPSS liegt die Stärke von erfahrenen Data Analysts vor allem in der Beherrschung von SQL, um direkt aus Datenbanken die notwendigen Daten zu extrahieren. 

Aber auch die Verwendung von Programmierbasierten Analysen wie R oder python oder die Erstellung von rudimentären Machine Learning Modellen kann in das Aufgabengebiet eines Data Analysts fallen – obwohl das eher der Schwerpunkt von der Rolle des Data Scientists ist.

Nachfolgend unsere gesammelten Daten zum Gehalt eines (Senior) Data Analysts:

Gehalt eines Data Analysts nach Seniorität

SenioritätGehaltSpanne
Junior Data Analyst35.000€20.000€ – 45.000€
Data Analyst45.000€38.000€ – 53.000€
Senior Data Analyst55.000€50.000€ – 75.000€
Lead Data Analyst, Principal Data Analyst66.000€60.000€ – 90.000€
Chief Data Analyst??
Gehalt eines Data Analysts nach Seniorität

Gehalt eines Data Analysts nach Ort

OrtGehalt
Durchschnitt Deutschland45.000€
München50.000€
Hamburg46.000€
Berlin44.000€
Gehalt eines Data Analysts nach Ort

Besonderheiten bei Lead Data Analysts und Chief Data Analysts

Um ehrlich zu sein sind mir bisher keine Chief Data Analysts begegnet. Normalerweise steigert sich die Rolle durch den geringeren technisch-fachlichen Fokus dann nicht mehr durch Titel, sondern eher mittels strategischer Verantwortung. Daher ist eher ein “Head of Data Analytics” oder “Head of Business Intelligence” zu finden, als Chief Data Analysts. Analytics als solches ist meist auch einer anderen Einheit – zum Beispiel IT oder Controlling – unterstellt, weshalb ein Chief selten seine Daseinsberechtigung findet, sondern die Analytics-Abteilung eher einem CIO oder CDO unterstellt ist.

Gehaltsentwicklung im Bereich Data Analytics

Durch die Normalisierung von Datenanalyse und immer zugänglicheren Datenquellen, Analysemethoden und Tools ist die Entwicklung des Gehalts von Data Analysts relativ konstant. Einerseits steigt der Bedarf, allerdings drängen auch sehr viele Menschen in diesen Beruf, da er wesentlich weniger fachliche Expertise als ein Data Scientist oder Data Engineer benötigt und somit viel zugänglicher ist.

In den zukünftigen Jahren ist zu erwarten, dass Data Analytics als solches oft als “Self Service” etabliert wird. Dazu wird nachhaltige, einfach zugängliche und standardisierte Infrastruktur geschaffen, mit der sich auch Domänenexperten an den Daten bedienen können. Daher ist gegebenenfalls sogar zu erwarten, dass die Anzahl an reinen Data Analysts abnimmt und eher Mischformen aus Domänenexpertise und Datenanalyseexpertise der Standard werden.

Der Data Scientist – Aufgaben und Gehalt

Der Data Scientist, zu Deutsch Datenwissenschaftler, ist mitunter die begehrteste Rolle im Zuge der digitalen Transformation und vor allem auf dem Weg zur Data Driven Company. Er wird als Wundermittel rund um die Themen Big Data, Advanced Analytics, Machine Learning und datenbasierte Innovation gesehen.

Folglich kann die Rolle des Data Scientists sehr stark variieren. Vom Generalisten, der auch die Aufgaben von Data Analyst und Data Engineer mit übernimmt, bis zum Spezialisten der sich auf künstliche Intelligenz (z.B. Neuronale Netze und Deep Learning) konzentriert kann es viele Ausprägungen des Datenwissenschaftlers geben. Doch eins haben sie gemeinsam: Sie benötigen eine weitreichende Kombination zwischen Business-Expertise, Statistik-Wissen und Programmier-Kenntnissen. Nur dann kann Data Science fruchten: Als Schnittstelle zwischen kundenzentrierten Business-Problemen und der Auswertung und dem Einsatz von Daten als Lösung.

Technologisch arbeiten Data Scientists vor allem mit Tools aus dem Bereich Big Data Analytics und Programmiersprachen wie python und R, um Daten auszuwerten. Auch die Nutzung von Cloud Computing wie Microsoft Azure, AWS oder Google Cloud und Data Lakes gehören in den Werkzeugkasten. Die Aufgaben sind also nicht zu knapp – deshalb ist das Gehalt für einen Data Scientist auch im oberen Feld angesiedelt. 

Für weitere Informationen zu den Aufgaben und Skills eines Data Scientists, besucht unseren Artikel “Data Scientist: Beschreibung, Aufgaben, Tools und Gehalt”.

Nachfolgend unsere gesammelten Daten zum Gehalt eines (Senior) Data Scientists:

Gehalt eines Data Scientists nach Seniorität

SenioritätGehaltSpanne
Junior Data Scientist40.000€35.000€ – 45.000€
Data Scientist53.000€40.000€ – 65.000€
Senior Data Scientist70.000€55.000€ – 100.000€
Lead Data Scientist, Principal Data Scientist80.000€65.000€ – 115.000€
Chief Data Scientist95.000€?
Gehalt eines Data Scientists nach Seniorität

Gehalt eines Data Scientists nach Ort

OrtGehalt
Durchschnitt Deutschland53.000€
München60.000€
Hamburg54.000€
Berlin51.000€
Das Gehalt eines Data Scientists nach Ort

Besonderheiten bei Lead Data Scientists und Chief Data Scientists

Data Scientists sind von den dargestellten Rollen tatsächlich diejenige, die sich am stärksten in “Lead” und “Chief” Positionen aufgliedern. Dabei ist bei Lead Data Scientists die Funktion noch sehr klar und deutlich technisch geprägt, während ein “Chief Data Scientist” eher strategisch agiert.

Auch wenn sie die häufigste der Lead-Rollen darstellen, ist auch für die Data Scientists kaum Information vorhanden bzgl. der Gehälter in dem Bereich, da sie massiv von den genannten Einflussfaktoren wie Ort, Unternehmensgröße, Fachgebiet, Personalverantwortung etc. beeinflusst werden.

Gehaltsentwicklung im Bereich Data Science

Dadurch, dass der Markt erkannt hat, dass es viel zu wenig Data Scientists gibt um dem Hype gerecht zu werden, produzieren Universitäten und Websites inzwischen viel Nachwuchs. Doch dieser Nachwuchs kann nicht direkt die Anforderungen von Unternehmen erfüllen, da die mangelnde praktische Erfahrung mit dem Thema – sowohl strategisch als auch operativ – einen fundamentalen Unterschied darstellt. Daher ist die Gehaltsentwicklung im Bereich der Einsteigsgehälter von (Junior) Data Scientists als abnehmen, die im Bereich der erfahrenen Data Scientists als massiv ansteigend zu betrachten.

Der Data Engineer – Aufgaben und Gehalt

Der Data Engineer hat zur Aufgabe, Dateninfrastruktur aufzusetzen, zu betreiben und Data Pipelines um Daten zu transferieren zu erstellen. Folglich ist er fundamental wichtig im ersten Schritt zum Aufbau einer Data Driven Company: Die Akquise, Konsolidierung und Bereitstellung von Daten fällt in sein Aufgabengebiet.

Da viele Unternehmen gerade merken, dass die Bereitstellung von Daten einer ihrer Schwachpunkte ist, sind Data Engineers momentan auch sehr gefragt. Vor allem Senior Data Engineers, die bereits weitreichende Erfahrung mit Cloudsystemen, Data Pipelines, Data Lakes, ETL-Tools etc sammeln konnten, spüren diesen Bedarf auch sehr deutlich im Gehalt.

Über den Entwicklungsverlauf eines Data Engineers kann man sagen, dass er üblicherweise entweder nahe am Solution Architect (z.B. Beherrschung eines ETL-Tools) oder am Softwareentwickler (z.B. manuelles erstellen von Tools) startet. Mit zunehmender Erfahrung kommen beim Senior Data Engineer dann schließlich auch Kenntnisse in Cloud-Technologie, Big Data Infrastruktur oder dem Aufbau einer IT-Architektur zusammen.

Für weitere Information zu den Aufgaben des Data Engineers, besucht unseren Artikel “Data Engineer: Beschreibung, Aufgaben, Tools und Gehalt”. 

Nachfolgend unsere gesammelten Daten zum Gehalt eines (Senior) Data Engineers:

Gehalt eines Data Engineers nach Seniorität

SenioritätGehaltSpanne
Junior Data Engineer45.000€30.000€ – 60.000€
Data Engineer55.000€45.000€ – 70.000€
Senior Data Engineer65.000€55.000€ – 100.000€
Lead Data Engineer, Principal Data Engineer80.000€?
Chief Data Engineer100.000€?
Das Gehalt eines Data Engineers nach Seniorität

Gehalt eines Data Engineers nach Ort

OrtGehalt
Durchschnitt Deutschland62.000€
München65.000€
Hamburg62.000€
Berlin60.000€
Das Gehalt eines Data Engineers nach Ort

Besonderheiten bei Lead Data Engineers und Chief Data Engineers

Ab der Erfahrungsstufe “Lead Data Engineer” wird es sehr schnell schwammig, vor allem an Informationen die man im Internet findet. Zudem treffen die oben genannten Einflussfaktoren sehr stark zu, das heisst ob man Personalverantwortung hat und in welcher Unternehmensgröße man arbeitet.

Wenige Unternehmen haben einen Chief Data Engineer auf der Gehaltsliste. Dies liegt vor allem daran, dass eine sehr hohe kritische Masse erreicht werden muss, um einen “Chief” zu besetzen. Zudem übernimmt diese Rolle üblicherweise der Chief Data Officer oder Head of Data Engineering.

Gehaltsentwicklung im Bereich Data Engineering

Wie bereits erwähnt entwickeln sich die Gehälter im Bereich Data Engineering positiv. Viele Unternehmen stellen fest, dass sie Dateningenieure benötigen, um überhaupt datengetrieben zu arbeiten – aber an erfahrenen Personen mangelt es. Entsprechend sind bereits Einstiegsgehälter für Data Engineers sehr hoch. 

Ein weiterer Faktor ist, dass zwar massenhaft Softwareanbieter auf den Markt drängen, um solche Prozesse zu automatisieren, aber einerseits sind sie noch meist weit von einer Vollautomatisierung entfernt und zweitens müssen diese Tools auch eingesetzt und bedient werden – was wiederum eine Aufgabe des Data Engineers ist.

Der Vergleich des Gehalts von Data Analyst, Data Scientist und Data Engineer

Zusammenfassend sind alle dargestellten Gehälter in der gleichen Branche, jedoch mit unterschiedlichem Fokus in der Wertschöpfungskette von Daten. Die nicht unerheblichen Gehaltsunterschiede vor allem zwischen Data Analysten und Data Scientists ist oft ein Anstoß zur Diskussion. So verdienen Data Scientists im Schnitt gerne über alle Senioritätslevel vom Einstiegsgehalt bis zum Manager ca. 20% mehr als Data Analysts.

Aber auch Data Engineers sind schwer gefragt. So haben sie ein noch stärkeres Potential zum Wachstum als Data Scientists, weil der Aufbau der Dateninfrastruktur momentan ein sehr stark fokussiertes Thema ist. Zudem ist die fachliche Expertise – der Aufbau von Big Data Infrastruktur, Data Pipelines, Cloud Infrastruktur und mehr – sehr anspruchsvoll. 

Ist der Unterschied gerechtfertigt?

Sind diese Unterschiede im Gehalt zwischen Data Analyst, Data Scientist und Data Engineer gerechtfertigt? Darauf gibt es wie üblich eine Bandbreite an Antworten. Wir betrachten gerne mehr als nur einen Faktor wenn wir das Gehalt betrachten. Zum Beispiel muss ein guter Senior Data Scientist eine umfangreiche Kombination an Business-Wissen, statistischer Expertise und hohen Programmierkenntnissen mit in die Rolle bringen, um ein solches Gehaltslevel zu erreichen. Diese Vielzahl an notwendigen Skills ist nicht einfach zu bekommen, geschweige denn einfach zu erlernen.

Nebst dem notwendigen Skillset finden sich auch die gesamtgesellschaftliche Entwicklung und der Ausbildungsrückstand im Gehalt wieder: Während Rollen wie der Data Analyst inzwischen gut abgedeckt ist, sind der Scientist und Engineer noch nicht in einem Reifegrad, die mit der Entwicklung der Unternehmen mithalten können. Zwar gibt es nach und nach immer mehr Onlinekurse und Studiengänge die diese Lücke zu füllen versuchen, aber es ist ein immenser Unterschied zwischen einem Junior Data Scientist und Senior Data Scientist was Erfahrung und somit Effekt betrifft.

Kurzum: Wir denken, dass die Unterschiede im Jahr 2020 definitiv noch gerechtfertigt sind, aber mit den kommenden Jahren werden auch Data Scientists und Data Engineers eine Demokratisierung erfahren, so dass sie besser verfügbar sind und somit die Gehälter entsprechend langfristig sich an den Markt anpassen.

Die Rolle vom Gehalt in einer Data Driven Company

Was bedeuten nun die Gehälter der Rollen Data Analyst, Data Scientist und Data Engineer für die Data Driven Company? Alle drei Rollen sind relativ zentral in den operativen Analytics und Advanced Analytics Bereichen einer Data Driven Company und sollten daher auch im Fokus von Recruiting und Retainment stehen. Die Personalknappheit, der geringe Erfahrungsstand der meisten Data Rollen und die hohen Kosten schlagen natürlich vor allem bei Unternehmen zu Buche, die sich im Aufbau ihrer Datenexpertise befinden.

Doch gilt es auch hier wie in vielen Themen langfristig zu denken: Die Arbeit mit Daten wird uns in den nächsten Jahrzehnten begleiten, deshalb müssen sich Unternehmen vorbereiten den AI Chasm zu überbrücken und datenbasierte Arbeit als Teil ihrer Organisation zu sehen. 

Zusammen genommen lohnt es sich also, lieber jetzt zu investieren um fähiges Personal zu rekrutieren und die Grundsteine für nachhaltige Arbeit im Bereich Data zu legen, statt zu zögern und langfristig viel höhere Kosten durch fehlende Insights, Legacy Systeme, schlechte Datenqualität und mangelnde Innovation zu zahlen. 

Datengrundlage

PlattformTitelOrtGehalt (Spanne)
LinkedInData AnalystMünchen50k (31 – 69k)
IndeedData AnalystMünchen58,5k (28 – 99k)
XINGData AnalystHamburg52,5k (42 – 73,5k)
LinkedInData AnalystDeutschland48k (32.5 – 65k)
XINGData AnalystDeutschland52,5k (38 – 75k)
IndeedData AnalystDeutschland58k (18 – 98k)
LinkedInData AnalystBerlin43k (30 – 58,5k)
XINGData AnalystBerlin51k (40,5 – 71k)
IndeedData AnalystBerlin53,5k (25 – 91k)
XINGData AnalystBayern54k (43 – 75k)
LinkedInData EngineerMünchen60k (45 – 70k)
IndeedData EngineerMünchen72,5k (35 – 123k)
LinkedInData EngineerDeutschland55k (40 – 70k)
IndeedData EngineerDeutschland73k (30 – 134k)
LinkedInData EngineerBerlin55k (34,5 – 75k)
IndeedData EngineerBerlin77,5k (34 – 138k)
LinkedInData ScientistMünchen62k (50 – 90k)
gehalt.deData ScientistMünchen(55 – 86k)
IndeedData ScientistMünchen71k (35 – 120k)
LinkedInData ScientistHamburg60k (45 – 75k)
XINGData ScientistHamburg68k (51,5 – 89k)
gehalt.deData ScientistHamburg(48 – 75,5k)
LinkedInData ScientistDeutschland60k (45 – 80k)
XINGData ScientistDeutschland68k (44,5 – 91k)
gehalt.deData ScientistDeutschland(45,5 – 71k)
IndeedData ScientistDeutschland80k (28 – 157k)
LinkedInData ScientistBerlin56k (42 – 75k)
XINGData ScientistBerlin65,5k (48,5 – 87k)
gehalt.deData ScientistBerlin(43 – 67k)
IndeedData ScientistBerlin54,5k (20 – 104k)
XINGData ScientistBayern70k (52,5 – 91k)
IndeedJunior Data ScientistDeutschland45k (23 – 74k)
XINGLead Data AnalystDeutschland58k (48 – 71k)
XINGLead Data ScientistDeutschland76,5k (57 – 91k)
LinkedInSenior Data AnalystDeutschland63,5k (45 – 90k)
LinkedInSenior Data EngineerDeutschland71k (60 – 88k)
LinkedInSenior Data ScientistDeutschland71k (57 – 88,5k)
IndeedSenior Data ScientistDeutschland76k (32 – 138k)
Die Gehälter von Data Analyst, Data Scientist, Data Engineer im Vergleich (Abrufdatum 13.08.2020)
Veröffentlicht am

Was ist Amazon Kendra? Review des Suchservices von AWS

Kendra ist die neue Suchengine von Amazon Web Services (AWS), die den Zugang zu Informationen mittels Machine Learning erleichtern soll. Mit Kendra versucht Amazon weitere Teile von digitalen Kanälen zu erobern, indem es eine direkte Konkurrenzposition zu anderen Unternehmen wie Google oder Microsoft einnimmt. 

Inhaltsverzeichnis

Was ist der Suchservice Amazon Kendra von AWS? 

Drei Schritte zur Einrichtung von AWS Kendra
Die Einrichtung von AWS Kendra ist denkbar einfach

Das Ziel von Kendra ist eine benutzerfreundliche Kombination von Daten mit fortgeschrittener natürlicher Sprachverarbeitung, um ein optimales Kundenerlebnis zu erreichen. Die Idee ist, dass Kendra sich auf Anfragen in natürlicher Sprache (z.B. “Was ist Amazon Kendra?”) statt einfacher Stichwort-Suchen (z.B. “AWS Kendra”) konzentriert und diese bestmöglich beantwortet.

Mittels maschinellen Lernen versucht Kendra dann aus allen verknüpften Datenquellen die bestmögliche Antwort zu extrahieren, auszuliefern und die wichtigsten Informationen zu markieren. Dieses Vorgehen folgt der Entwicklung der Google Suche, die seit geraumer Zeit nicht mehr nur einfach ein Dokument ausspuckt, sondern bereits anzeigt, welche Information innerhalb des Dokuments ausschlaggebend für den Sucherfolg waren.

Herausforderungen in der Content-Suche

Amazon Kendra versucht Suche, vor allem Volltext-Suche im Contentbereich, elegant zu lösen. Um die Vorteile von Kendra zu verstehen, muss man erst einige der Herausforderungen in der Content-Suche verstehen:

Big Data in der Suche: Große und sich schnell ändernde Datenmengen

Mit zunehmender verfügbarer Datenmenge für die Suche ändern sich auch die Herausforderungen an das Suchsystem selbst. Eine Volltextsuche auf allen Dokumenten live auszuführen genügt seit geraumer Zeit nicht mehr, stattdessen sind Hash Tables ins Zentrum des Cachings gerückt. Diese Hash Tables – konstruiert aus relevanten Worten innerhalb von Dokumenten – zeigen auf, welche Begriffe in welchen Dokumenten gefunden werden können.

Während diese Herangehensweise ein schnelles Matching von Anfrage zu Ergebnis erlaubt, ist dieser Zwischenschritt dennoch kostenintensiv bei der Erstellung der Tables. Da sich im Zeitalter von Big Data und nutzergenerierten Daten sich die Datenbasis auch zunehmend schnell ändert, muss sich um die technische Komponente von Updates frühzeitig gekümmert werden.

Hier gibt es prinzipiell zwei Methoden: Ein full re-index vs. change log tables. Ersteres ist wie der Name bereits sagt die Herangehensweise, dass der Index in den Hash Tables komplett neu aufgebaut wird (z.B. Nachts als Batch Process), während zweiteres nur Veränderungen in der Datengrundlage als Grundlage für ein Update des Hashs nutzt. Ersteres ist einfacher zu implementieren und macht sicherlich Sinn bei kleineren Datenmengen, zweiteres hingegen ist komplexer aber erlaubt Erweiterung des Suchindexes auch bei laufenden Betrieb.

Als letztes ist die Infrastruktur im Blick von Suchservices. Mit zunehmenden Anfragen muss man sich Gedanken über die Skalierung der zugrundeliegenden Architektur machen. Speziell NoSQL-Systeme wie MongoDB gelten als Antwort auf solche Probleme, die durch RDMBS-Systeme nicht gelöst werden können.

Das beste Suchergebnis ausgeben: Such-Intent vs. Such-Ergebnis

Aber nicht nur die technische Grundlage der Datenverfügbarkeit und Suchanfrageabwicklung ist von Relevanz, sondern im Herz eines Suchergebnisses ist die möglichst optimale Auslieferung von Ergebnissen an den Nutzer. Der Such-Intent ist hierbei die Grundwahrheit (z.B. ein Nutzer möchte ein weißes Fahrrad), während die Such-Eingabe (z.B. “weißes Rad”) nicht immer eindeutig diesen Sinn widerspiegelt (möchte er ein Fahrrad oder ein Einzelrad?). 

Um den Intent möglichst optimal mit einem Ergebnis zu bedienen, gilt es generell alle zur Verfügung stehenden Daten (Produktinformationen, Verhaltensdaten, Analyticsdaten, etc) zu gewichten und entsprechend der Anfrage auszuspielen. Hierbei können ein Ranking-Cocktail (z.B. der Titel ist relevanter als die Beschreibung), Frequenzen (z.B. welche Ergebnisse werden häufiger geklickt) oder auch Methoden der natürlichen Sprachverarbeitung (z.B. TF-IDF) und Machine Learning (z.B. Neuronale Netze) zum Einsatz kommen.

Gemeint aber nicht geschrieben: Synonyme, Abkürzungen, Tippfehler in der Suchanfrage

Als letztens großen Aspekt in der Content-Suche gilt es, auch unklare Nutzeranfragen aufzulösen und entsprechend auf mögliche Ergebnisse zu transferieren. Obiges Beispiel mit den Hash-Tables würde zum Beispiel die Anfrage “aws kendra” nicht auf “Amazon Web Services” mappen und somit kein valides Ergebnis zurückgeben.

Das gleiche gilt für Synonyme, Abkürzungen und Tippfehler. Um diese Herausforderungen zu lösen wird eine Vielzahl an Lösungen eingesetzt. Von phonetischer Suche (gegen Tippfehler) über Business Rules (um Synonyme fix anzulegen), statistische Methoden (z.B. Fuzzy Search) bis zu Machine Learning Modellen gibt es viele Lösungsansätze um auch schwierige, aber korrekte Suchanfragen zu verarbeiten.

Vorteile und Funktionen von AWS Kendra

Alle drei definierten Herausforderungen geht Kendra von Amazon Web Services durch ihre Grundfunktionalität ab. 

Big Data & Skalierung von Kendra

Durch die direkte Integration in die Cloud Services von AWS ist Skalierungsfunktion kein Thema bei Kendra. Sowohl storage via S3 als auch Cloud Computing via EC2 oder Lambda sind nahezu unendlich skalierbar und somit gibt es keine Probleme, so man große Datenmengen nutzt und diese Datenmengen hochkomplex verarbeitet werden müssen. Generell erlaubt Kendra Zugriff auf alle gängigen Datenbanken mittels einer Vielzahl an Connectoren (momentan 17 gängige Connectoren: S3, file systems (SMB), Web crawler, Databases, SharePoint Online, SharePoint on prem, Box, Dropbox, Exchange, OneDrive, Google Drive, Salesforce, Confluence, Jira, Servicenow, Zendesk, Jive).

Suchintent vs. Suchergebnis Optimierung von Kendra

Der nächste Interessante Aspekt ist die Matching zwischen Suchintent und Suchergebnis. Diese Herausforderung ist der Kern von Kendra. Kendra hat zum Ziel, vor allem Antworten bei Fragen in natürlicher Sprache (z.B. “Welche Funktionen hat AWS Kendra?”) zu liefern. Der erweiterte Input einer natürlichen Fragestellung erlaubt der Suchmaschine, eine möglichst genaue Antwort zu suchen und finden. Aber auch bei einfachen Schlüsselwörtern (z.B. “Funktionen”) verknüpft Kendra die Blöcke in einem Dokument mit dem Nutzer.

Als Fallback-Mechanismus gibt es zusätzlich eine auf Deep Learning trainierte Ausgabe von URLs, die der Nutzer entsprechend verfolgen kann. Aber auch der “klassische” Weg, bestimmten Attributen in strukturierten Daten (z.B. Titel, Datum, Hits) mehr Gewicht zu verleihen (“Ranking Cocktail”) ist bei Kendra möglich. 

Alle Suchergebnisse basieren auf domänenspezifischen Modellen (zur Zeit für 16 Domänen verfügbar: industrielle Fertigung, IT, Rechtswesen, Finanzdienstleistungen, Tourismus und Hotellerie,Versicherungen, Pharmazeutika, Öl und Gas, Medien und Unterhaltung, Gesundheitswesen, Personalwesen, Nachrichtenwesen, Telekommunikation, Bergbau, Nahrungsmittel und Getränke und Automobilindustrie), was die Suchergebnisqualität noch weiter erhöht.

Synonyme, Abkürzungen und automatische Verbesserung der Ergebnisse

Während die beiden vorherigen Punkte bei Kendra von AWS bereits sehr gut abgedeckt werden, ist das Tool bei der letzten Herausforderung noch etwas schwach auf der Brust. Doch die Betonung liegt auf “noch” – denn die meisten dazugehörigen Funktionen sind als “in Kürze verfügbar” markiert (Stand: Juli 2020). So sollen sich Synonyme via Listen abdecken lassen, Amazon Kendra selbst lernen welche Ergebnisse gut passen und eine automatische Suchvervollständigung (sog. Suggest) einsetzen lassen

Besonders gespannt kann man auf die Analyse der Aktivitäten bei Kendra (z.B. mittels Tracking des Suchverhaltens und der Ergebnisqualität), da man dadurch schnell Schlüsse für den Erfolg der Suchengine ziehen kann. Amazon möchte hierzu eine Bandbreite an Metriken (z.B. häufigste Suchanfragen, beliebteste Ergebnisse, Qualitätsmetriken wie Mean Reciprocal Rank (MRR) und Bewertungen) bereitstellen, um die Optimierung des Systems zu unterstützen. 

Tutorial: Technisches Setup von Amazon Kendra / Architektur und Infrastruktur

Das technische Setup von Amazon Kendra ist denkbar einfach. Im Endeffekt sind es zwei simple Schritte, bevor man bereits ins Testen und Anbinden gehen kann. Hier ein kurzes Tutorial um Kendra aufzusetzen:

Index als Basis für Datenquellen

Der Index ist sozusagen der Container um die angebundenen Datenquellen. Es sind zwei einfache kurze Schritte und etwa 20 – 30 Minuten Wartezeit bis ein Index erstellt sind. Man gibt einfach einen Namen und eine IAM-Rolle an (Schritt 1), bevor man entscheidet ob es ein Developer oder Enterprise Index sein soll (Schritt 2). Schon wird der Index angelegt und nach einer gewissen Wartedauer (bis zu 30 Minuten) kann er genutzt werden.

Datenquellen als Grundlage für Suchergebnisse

Als zweiter Schritt werden Datenquellen zum Index hinzugefügt. Man definiert den Namen der Datenquellen und wählt dann aus einem der zur Verfügung stehenden Konnektoren aus, wie man die Daten crawlen soll. Nach einem kurzen Review ist die Datenquelle angelegt und kann mittels “Sync now” synchronisiert werden.

Testen und Bereitstellen

AWS Kendra testen
AWS Kendra testen

Voila. Das war’s und man kann die Daten mittels der bereitgestellten Tools durchsuchen und einbinden.

Preise von Amazon Kendra

Die Preisstruktur von AWS Kendra hängt primär vom Tier (Developer vs. Enterprise Edition) ab. Die Developer Edition hat zum Ziel, Proof of Concepts (POCs) zu erstellen, während die Enterprise Edition für den operativen Gebrauch gedacht ist. Somit hat man beim Developer Tier auch 750 kostenlose Stunden Uptime für den Index, in beiden Fällen zahlt man jedoch sowohl die Nutzung der Konnektoren als auch das Einlesen der Dokumente. Genauer hier als Tabelle:

KostenpunktDeveloper EditionEnterprise Edition
Dokumente10.000500.000
Anfragen / Tag4.00040.000
Datenquellen550
Kosten pro Stunde$2.50$7
Kosten pro Monat$1.800$5.040
Zusätzliche Queries$3.50 / h für 40.000 / Tag
Zusätzliche Dokumente$3.50 / h für 500.000 Dokumente
Scan je Dokument$0.000001 $0.000001 
Connectornutzung$0.35 / h$0.35 / h
Kosten von AWS Kendra

Beispiele für Anwendungen von AWS Kendra / Use Cases

Wie eingangs dargestellt gibt es viele Anwendungsfälle für den Einsatz von AWS Kendra. Vor allem alles, was größere Textmengen durchsucht eignet sich besonders gut in einer Kendra-Suche. 

Interne Suche mittels AWS Kendra

Vor allem im Enterprise-Umfeld häufen sich die Suchanfragen nach Wissen in Dokumenten. Anwendungsfälle spannen sich von internen FAQs über Produktinformation, Forschungsunterlagen, Dokumentindexierung, internen Wissensdatenbanken bis zum Onboarding von neuen Mitarbeitern mittels umfangreichen Material.

Externe Suchanfragen durch Kendra, z.B. Onsite-Suche

Nebst der Optimierung der internen Suche ist die Königsdisziplin für jede Content-Suche jedoch die Bedienung von externen Kunden bzw. Interessenten. Ob im Support-Bereich, bei digitalen Produkten (z.B. Zeitschriften), e-Commerce-Beschreibungen, Content-Artikeln oder mehr: Den Nutzer schnell zum Ziel zu führen ist zentral, um ihn nicht zu verlieren. 

Datenverwaltung mittels Indexierung von Kendra für eCommerce- oder Produktsuche

Während es Speziallösungen für die Suche innerhalb von Produktdaten gibt (z.B. Fredhopper), versucht AWS Kendra auch dieses Feld für sich zu erobern. Der Einsatzzweck wäre vor allem im E-Commerce-Bereich, also Onlineshops um das beste Produkt für den Interessenten zu finden.

Weitere Informationen und Video-Tutorial für Amazon Kendra

Veröffentlicht am

Alles zu Collaborative Filtering: Algorithmen, Beispiele, Probleme

Ein TV-Gerät auf einer TV-Bank, auf dem Display Netflix

Collaborative Filtering ist ein Algorithmus aus der Kategorie der Empfehlungssysteme. Das Ziel ist eine möglichst passgenaue Empfehlung von Produkten, Artikeln, Nachrichten, Videos oder anderen Objekten an einen Nutzer auszuspielen. Kollaboratives Filtern bedient sich hierbei an Daten, die durch ähnliche Nutzer generiert werden. Somit erlaubt es ein realitätsnahes Abbild von passgenauen Empfehlungen.

Inhaltsverzeichnis 

Was ist Collaborative Filtering? Der Algorithmus einfach definiert

Einfach gesagt ist Collaborative Filtering (auf Deutsch: kollaboratives Filtern) die Idee, dass man vom Verhalten von anderen Personen lernen kann. Man nutzt das Verhalten aller Kunden, um dies in eine Empfehlung für eine einzelne Person zu übersetzen. Dazu nutzt man das Wissen, wie Kunden mit Produkten interagieren, um dies in eine Empfehlung umzurechnen. Die “Kollaboration” entsteht, indem man das Verhalten vieler Kunden zusammen nimmt, um eine Empfehlung nahe der Realität zu generieren.

Etwas formeller hat Collaborative Filtering, hat zum Ziel datenbasierte Empfehlungen zu generieren. Die Methode nutzt historische Daten, um gemeinsam auftretende Häufigkeiten zu identifizieren und als Grundlage für das voraussichtliche Verhalten eines Nutzers einzusetzen.

Das einfachste Beispiel für Collaborative Filtering ist ein Empfehlungsalgorithmus in einem Webshop. “Das könnte Sie auch interessieren” ist meist der Titel einer Box, in der relevante Artikel gezeigt werden, die einen Bezug zum aktuellen Produkt haben. Diese Empfehlungen basieren meist auf dem Verhalten der anderen Nutzer (user based collaborative filtering) oder auf den Attributen des angesehenen Artikels (article based CF).

Kollaboratives Filtern ist ein interessanter Algorithmus, da er zwar in die Kategorie Unsupervised Machine Learning fällt, auf der anderen Seite jedoch sehr häufig das Verhalten und die Meinung der Kunden und Nutzer einfließt. Folglich bildet er die reale Welt relativ genau ab, ohne explizite Labels oder Training zu benötigen.

Mehr noch kann man kollaboratives Filtern sehr gut auf Kundensegmente basierend berechnen. Dies erhöht die Personalisierung und Individualität und verbessert somit noch besser das Kundenerlebnis. Daher ist es einer der eher “praktischen” Algorithmen im Bereich Machine Learning.

Einordnung in die Data Science / Machine Learning Landschaft

Wie bereits erwähnt fällt Collaborative Filtering in den Bereich Machine Learning (ML), genauer Unsupervised Machine Learning. Diese Kategorie von Algorithmen nutzt rein Information aus Daten, um Gruppen oder Regeln abzuleiten. Im Gegensatz dazu müssen bei Supervised ML Algorithmen Labels, also Zielvariablen zur Verfügung gestellt werden (z.B. Kategorie “A”).

Innerhalb des Unsupervised Bereichs fällt Collaborative Filtering in die Sektion “Recommender Systems”. 

Recommender Systems, auf Deutsch “Empfehlungssysteme”, tun genau was ihr Name sagt: Sie empfehlen Etwas basierend auf den vorliegenden Daten. Dabei sind es meist Produkte, Services oder Menschen die empfohlen werden. Beispiele dafür sind Netflix’s Videoempfehlungen, die Kontaktempfehlungen von LinkedIn oder Amazon’s Produktempfehlungen.

Abgrenzung zu anderen Recommender Systems

Es gibt zwei große Kategorien von Recommender Systemen: Content-based Recommendation und Collaborative Filtering. Content-based Recommendation, auf Deutsch “Inhaltsbasierte Empfehlungssysteme”, beziehen sich wie der Name bereits sagt primär auf den Inhalt des Objekts sowie der Attribute der interagierenden Entität. Einfach gesagt: Wenn eine junge Person einen Film über Haie auswählt, möchte sie vermutlich etwas anderes sehen als eine alte. 

Die beiden Arten von Empfehlungssystemen sind jedoch nicht einander ausschließend. Es ist sehr häufig der Fall, dass zuerst ähnliche Benutzer und/oder Artikel ausgewählt werden, um damit eine solide Basis an Produkten zu generieren. Darauf basierend wird dann kollaboratives Filtern berechnet, um diese generische Häufigkeitsliste mit Verhaltensdaten anzureichern.

Arten und Algorithmen von Collaborative Filtering

Es gibt mehrere Arten von Collaborative Filtering. Nebst Memory-based, aka “Matrix-Based” die direkt die Beziehungen von Menschen zu Objekten berechnen, gibt es auch zahlreiche andere Herangehensweisen wie Model-based, Deep Learning oder Hybride Modelle. Wir stellen hier vier Varianten vor und zeigen, wie der Algorithmus funktioniert.

Memory-Based (aka. Neighborhood-based)

Die “memory-based” Variante von kollaborativen Filtering basiert auf einer Berechnung von Distanzen zwischen den vorhandenen Daten. Man zielt darauf ab, ähnliche Nutzer oder Produkte zu identifizieren und dann entweder zum Beispiel die Top 10 gekauften Produkte oder sehr ähnliche Produkte zu empfehlen. 

Dabei ist der Titel “memory-based” darauf zurückzuführen, dass diese Berechnungen im Speicher, also live durchgeführt werden. Dies hat zum Hintergrund, dass direkt auf den realen Daten und nicht auf einer Abstraktionsebene wie einem Machine Learning Modell gearbeitet wird. Das generelle Vorgehen ist wie folgt:

Schritt 1: Identifikation ähnlicher Nutzer

Es gibt eine Varianz an Möglichkeiten, ähnliche Nutzer zu identifizieren. Der einfachste ist die Identifikation von Nutzern, die den gleichen Artikel gekauft oder den gleichen Film bewertet haben. Umso mehr Interaktionen der betrachtete Nutzer mit dem System hat, umso besser funktioniert diese Methode, ähnliche Nutzer zu finden.

Eine andere Möglichkeit ist, Attribute eines Nutzers (zum Beispiel Dauer der Mitgliedschaft, Jahresumsatz, Alter) als Grundlage zu benutzen, um andere Nutzer zu identifizieren. Auch eine Mischform dieser beiden Möglichkeiten wird oft eingesetzt.

Die dadurch identifizieren Nutzer oder Kunden bilden die Basis. Von der Basis ausgehend wird versucht, möglichst optimale Empfehlungen für den betrachteten Nutzer zu finden.

Bei diesem Schritt eingesetzte Methoden umfassen klassische Distanzmetriken, Pearson correlation, vector cosine oder locality-sensitive hashing.

Schritt 2: Identifikation von möglichen Empfehlungen

Basierend auf den Daten der Nutzer-Basis können nun verschiedene nächste Filter eingesetzt werden. In einem binären Artikelsystem (zum Beispiel Produkte) wäre ein einfacher Fall die zehn häufigsten Produkte dieser Gruppe zu identifizieren (Top10-Approach). Ein anderer Weg ist, nach Produkten zu suchen, die ähnliche Attribute aufweisen wie das vom Nutzer zuletzt gekaufte.

Hat man ein diskretes oder stetiges System (zum Beispiel Ratings oder prozentuale Werte), kann man etwas kreativer in der Auswahl der Empfehlungen werden. Ob nun eine kategorielle Auswahl (zum Beispiel Top Produkte aus der Lieblingskategorie) oder Multiselektion (zum Beispiel, dass mehrere Tags des Produkts passen müssen) – es gibt eine lange Liste, um Kandidaten für die Empfehlungen zu generieren.

Schritt 3: Auswahl der Empfehlungen und Ausspielen

Hat man eine Liste an Empfehlungen, gilt es diese noch zu filtern und dann dem Nutzer zu präsentieren. Filter können beispielsweise auf Gewinnmarge, Neuigkeit oder auch auf einem Feedback-System beruhen.

Ein Feedback-System ist besonders interessant, da man die Empfehlungen dadurch sehr stark modifizieren kann. Feedbacks können natürlich auf positiv/negativ-Reaktion explizit durch Nutzerinteraktion aufgenommen werden, aber auch passive Feedbackindikatoren wie Nicht-Interaktion oder kurze Verweildauern auf empfohlenen Artikeln sind sehr hilfreich.

Model-based Collaborative Filtering

Die modellbasierte Variante von kollaborativen Filtern basiert, wie der Name schon sagt, auf einem vorher trainierten Modell. Meist sind dies Machine Learning Modelle wie zum Beispiel Clustering, Bayesian Networks oder auch sprachbasierte Varianten wie ein Latent Semantic Modell.

Im Unterschied zu Memory-basierten Algorithmen trainiert model-based CF ein Modell basierend auf den vorliegenden Daten, um dann neue Nutzer direkt mit einer Empfehlung ausstatten zu können. Die Vorteile sind: 

  • Funktionieren besser mit Datenlücken, da Abstraktion gegeben ist
  • Sind robuster gegen Outlier
  • Benötigen weniger Ressourcen bei den Abfragen

Wie im Machine Learning üblich, können auch Dimensionsreduktionen (zum Beispiel PCA) eingesetzt werden, damit die Rechenzeit gesenkt und Robustheit gesteigert wird.

Hybride Varianten

Ein Laptop mit einer Hotel-Buchungs-Seite geöffnet
Hybride Collaborative Filtering Modelle zielen auf schnelle, aber gleichzeitig sehr genaue Empfehlungen ab.

Selbstverständlich sind auch hybride Varianten üblich. Ob und wann welche Art von Algorithmus eingesetzt wird ist stark abhängig vom Anwendungsfall und den Erfolgsfaktoren. Aber üblich ist es, beispielsweise sowohl Top-Artikel als auch möglichst personalisierte Artikel auszuspielen, um eine gesunde Mischung aus individuellen und allgemeinen Empfehlungen zu bekommen.

Der Hintergrund ist, dass man damit Fehler im Algorithmus besser abfedert, aber auch dass die Personalisierung nicht nur hyperpersonalisierten “Bubble” wird, sondern eben auch neue Anreize setzt. 

Deep-Learning Varianten

Neuronale Netzwerke sind inzwischen im Bereich künstlicher Intelligenz weit verbreitet. Auch die Anwendung für Recommender Systems findet sich durch eine Vielzahl an Algorithmen wieder. Bei Collaborative Filtering im speziellen versucht Deep Learning einige Probleme zu lösen, die Memory-basierte CF Algorithmen mit sich bringen:

  • Miteinbezug von Attributen die nicht direkt im Datensatz sind, wie zum Beispiel ausgelaufene Produkte
  • Lösen des “Cold Start”-Problems, bei dem neue Nutzer oder neue Produkte schwierig Ergebnisse liefern
  • Eher auf Individualität statt auf Top10-Ergebnisse getrimmt

Während der Hype der künstlichen neuronalen Netze viele Vorteile verspricht, sind die Ergebnisse jedoch umstritten. Eine kürzlich veröffentlichte Studie zur Effizienz, Erfolg und Reproduktion von Deep Learning basierten Recommender Systemen kommt zu einem ernüchternden Ergebnis. In fast jedem Fall konnten die Ergebnisse entweder nicht reproduziert werden oder sie werden von einfachen Varianten outperformed. 

Nichtsdestotrotz ist selbstverständlich die Anwendung von Deep Learning ein potentieller Erfolgsfaktor, gegebenenfalls als hybrides Modell mit Vorselektion oder Filtering, in einem erfolgreichen Recommender System.

Beispiele für die Anwendung von Collaborative Filtering

Es gibt zahlreiche Beispiele für die Anwendung von kollaborativen Filtern. Hier möchten wir ein paar davon vorstellen, vor allem um Inspiration zu geben. 

Produkt-Empfehlungen im E-Commerce

Der Ursprung und auch noch immer die Königsdisziplin: Wie bekomme ich Kunden mit möglichst passenden Empfehlungen versorgt? Jeder E-Commerce Shop hat inzwischen die “Kunden die dies kauften, kauften auch” oder “Das könnte Sie auch interessieren”-Box. Das Ziel ist relativ simpel: Kunden mit Angeboten zu versorgen, die sie noch brauchen oder noch nicht wussten, dass sie sie brauchen.

Meist basieren diese Recommender Systeme auf einer Vielzahl an Daten: Kundendaten, Verhaltensdaten, Webanalytics, Historische Daten, Neuerscheinungen, Abverkauf, Marge und vieles mehr. Eine der höchsten Erfolgsquoten der Recommendersysteme im E-Commerce findet sich darin, dass Zubehör zu Hauptartikeln (z.B. der Bohrer zur Bohrmaschine) empfohlen werden.

Sales-Unterstützung für Aussendienst-Mitarbeiter

Aussendienstmitarbeiter haben ein schweres Los. Einerseits wollen sie möglichst personalisierten Service liefern, andererseits ist es sehr schwierig hunderte oder sogar tausende von Unternehmen und deren Mitarbeiter im Kopf zu behalten.

Hier springen Collaborative Filtering und andere Recommender-Systeme in Aktion. Basierend auf dem gesamten Kundenstamm findet man schnell heraus, welche zusätzlichen Artikel das Produktsortiment der Kunden entweder stärkt oder erweitert. Damit bewaffnet ins Gespräch zu gehen ist meist eine Erleichterung, auch mal über neue Möglichkeiten zu diskutieren.

Das nächste Video, der nächste Post, das nächste Bild

Einer der häufigsten Einsatzzwecke für Collaborative Filtering Algorithmen sind Soziale Medien und Streaming-Plattformen. Ob nun das nächste Video, der nächste Post oder das nächste Bild: Alles wird dadurch bestimmt, dass Plattformen versuchen, die Verweildauer (und somit die Nutzerbindung) der Nutzer zu maximieren. 

Interessant wird dies, so man eine Seite im personalisierten Feed betrachtet und dann einmal in ein ausgeloggtes, anonymes Browserfenster wechselt. Einmal mit YouTube ausprobiert zeigt das direkt sehr viel, wie sehr viele Menschen inzwischen in der personalisierten Welt sitzen.

Produktempfehlung beim Lebensmitteleinkauf

Ein besonders interessantes Anwendungsgebiet sind auch die momentan boomenden Lebensmittellieferanten wie REWE, PicNic und Amazon Fresh. Hier wird, vor allem auch in den Apps, massiv auf Personalisierung mittels Recommenders gesetzt. Vor allem historische Daten (was wurde bisher bestellt, wie regelmäßig, wann sind die letzten Einkäufe geschehen) sind eine Goldmine für Empfehlungen.

Probleme und Nachteile von kollaborativen Filtering

Das “Grey Sheep” Problem

Viele Schafe in den Bergen, von denen zwei dunkelgrau sind
“Graue Schafe” verhalten sich anders als der Rest und möchten daher auch keine standardisierten Empfehlungen.

Graue Schafe sind Nutzer, die in ihren Wünschen, Bedürfnissen und Vorlieben nicht direkt mit der Masse übereinstimmen. Folglich sind Empfehlungen basierend auf der Allgemeinheit in den Augen dieser Nutzer schlechte Empfehlungen.

Noch ausgeprägter ist das Problem bei den “Black Sheep”. Diese Nutzergruppe hat gegensätzliche Wünsche als die anderen Nutzer und folglich sind sinnvolle Empfehlungen fast unmöglich zu generieren.

Skalierung von Collaborative Filtering

Die meisten Matrix-basierten Methoden (z.B. Memory-based CF) müssen die Beziehung von jedem Nutzer zu jedem Objekt berechnen. Bei vielen Objekten (z.B. Produkte) und vielen Nutzern wird dies sehr schnell ein Skalierungsproblem, das lange Laufzeiten und Speicher benötigt. Daher wird teilweise auf Model-basierte oder Deep-Learning CF umgeschwenkt.

Data Sparsity und der long tail

Eines der Hauptprobleme von Collaborative Filtering ist die Data Sparsity, also die Datenknappheit. Bei vielen Produkten, bei neuen Nutzern oder neuen Produkten gibt es keine bis kaum Daten zur Integration dieser Entitäten in die Berechnung. Wenn zum Beispiel ein neuer Artikel in den Shop kommt, wurde dieser bisher nicht gekauft; und wird damit auch vom klassischen kollaborativen Filtern nicht vorgeschlagen.

Abhilfe schafft selbstverständlich ein Hybrides Modell zu nutzen oder die persönlichen Empfehlungen mit einem Cocktail aus anderen Faktoren, wie zum Beispiel Neuerscheinungen oder Top-Produkten zu ergänzen.

Bubble building – wie neu ist alt?

Eine eher gesellschaftliche Frage wird durch das “bubble building” von Recommendation Systemen aufgeworfen. Collaborative Filtering beruht auf dem Verhalten ähnlicher Nutzer, die ähnliche Produkte kaufen. Folglich sind die Vorschläge wieder aus dieser Ähnlichkeit generiert. Dies führt dazu, dass man sich immer mehr in der Ähnlichkeit bewegt, die als “Bubble” betitelt ist, statt Inspiration oder Neuartigkeiten von Aussen zu erleben.

Generell ist dies ein gesellschaftspolitisches Thema, vor allem wenn man über Empfehlungen von Nachrichten und Social Media Feeds spricht; Abhilfe schafft eine einfache Modifikation der Algorithmen mit generischen Empfehlungen oder absichtlich kontroversen Artikeln. 

Fazit: Die Rolle von Collaborative Filtering in der Data Driven Company 

In diesem Artikel haben wir erklärt was Collaborative Filtering ist, wie der Algorithmus funktioniert und welche Anwendungsfälle es gibt. Die generelle Idee, dass man das Verhalten einer ähnlichen Gruppe nutzen kann, um Empfehlungen für eine einzelne Person anzuleiten, ist sehr erfolgreich und wir häufig eingesetzt.

Etwas globaler gedacht hat kollaboratives Filtern wie auch andere Recommendation Algorithmen ein Ziel: eine bessere User Experience durch Personalisierung. Diese Personalisierung hat zum Ziel, die Kunden glücklicher zu machen und ihnen das zu liefern, was sie benötigen.

Die dabei entstehenden Gefahren, dass man Kunden in eine “Bubble” zwängt, sie zu sehr zum Kaufen animiert oder einen Mainstream an Produkten und Inhalten produziert, dürfen nicht außer Acht gelassen werden. Doch können diese ethischen Bedenken im Collaborative Filtering wie in anderen Machine Learning Algorithmen durch Bedacht vermindert werden.

Zusammengefasst sehen wir kollaboratives Filtern als wichtiges Element in der Interaktion mit Kunden und Mitarbeitern in der Data Driven Company. Als unsupervised Machine Learning kann es schnell und einfach angewandt werden und produziert einen Innovationsgrad, der zusammen mit menschlicher Expertise zu einem besseren Erlebnis für beide Seiten führt.

Veröffentlicht am

Alles zu Edge Computing: Definition, Probleme, Beispiele

Vier Microcomputer auf blauem Hintergrund

Edge Computing bezeichnet den Einsatz von Algorithmen und Datenverarbeitung auf mobilen Geräten. Der Gegensatz zu dieser dezentralen Herangehensweise sind zentrale Rechenzentren oder die Cloud. Was die genaue Idee hinter Edge Computing ist, welche Vor- und Nachteile es mit sich bringt und einige Beispiele als Inspiration bietet dieser Artikel.

Inhaltsverzeichnis

Was ist Edge Computing? Definition und Erklärung

Edge Computing bezeichnet das Konzept, dass Berechnungen auf lokalen Geräten statt auf Servern durchgeführt werden. Die “Edge” ist in diesem Sinne der Rand des Netzwerks, statt die zentralisierten Rechenkapazitäten. 

Als Edge Devices zählt eine Vielfalt an technischen Geräten, unter anderem Mobiltelefone, Laptops, Tablets, Sensoren und Einplatinencomputer (z.B. Raspberry Pi). Jedes dieser Geräte ist ein eigenständiges Gerät, das Daten erfassen und Berechnungen durchführen kann.

Genau bei diesem Aspekt – dezentralisierte Datenverarbeitung und -berechnung – setzt Edge Computing an. Die grundlegende Idee ist, dass man die Edge Devices in einem Netzwerk (z.B. die Sensoren in einer Fabrik oder die Handys der Aussendienstmitarbeiter) dazu nutzt, Daten zu erfassen, darauf basierend Ergebnisse oder Vorhersagen zu berechnen und auszuspielen. 

Der Unterschied zu momentan vorherrschenden Business Architekturen ist, dass Edge Computing nicht direkt auf ein zentralisiertes Rechenzentrum zugreift, sondern lokal die Verarbeitung durchführt. Während die Algorithmen und Programme zur Verarbeitung von zentralisierten Strukturen orchestriert werden (z.B. mittels Containerisation), werden jedoch die Edge Devices genutzt um sie auszuführen. Eine Synchronisierung mit dem Rechenzentrum kann weiterhin stattfinden, blockiert aber nicht die Ausgabe der Ergebnisse.

Einfach gesagt soll Edge Computing das Problem lösen, dass es immer mehr Anforderer (Clients) von Verarbeitung von Daten gibt, die Bottlenecks jedoch oft Internetverbindung (zum Beispiel im Aussendienst) oder Skalierung der Ressourcen sind. Dazu werden die immer stärker werdenden Einzelgeräte genutzt, um solche Aufgaben direkt auszuführen, statt erst transferiert und folgend abgerufen zu werden.

Einordnung in das Internet der Dinge (IoT)

Das Internet of Things (IoT) ist mitunter der größte Anforderer von Edge Computing, gleichermaßen aber auch der größte Profiteur. Durch die immense Erhöhung an Edge Devices durch das Internet der Dinge, die damit entstehenden riesigen Datenmengen, entsteht eine sehr große Anforderung an Rechenleistung.

Diese Rechenleistung ist kaum zentralisiert zu bewältigen, selbst wenn man auf skalierbares Cloud Computing zurückgreift. Weiterhin agieren derartige Geräte (z.B. Sensoren) oft in Umgebungen, die keine oder eine unzuverlässige Internetverbindung bereitstellen. Folglich würden Ergebnisse oder Reaktionen von solchen Daten zu lange dauern.

Daher benötigt IoT nicht notwendig Edge Computing (z.B. falls Daten nur erfasst werden), aber in den meisten Fällen so es ein sehr interaktives oder reaktives Edge Device sein soll, müssen zumindest rudimentäre Aktionen lokal berechnet werden. Daher gehen Edge Computing und das Internet of Things meist Hand in Hand.

Edge vs. Cloud Computing

Wie bereits erläutert, bedeutet Edge Computing, dass Daten lokal erfasst und verarbeitet werden. Im Gegensatz dazu steht das Cloud Computing, also die zentrale Bereitstellung von Rechenkapazitäten mittels skalierbarer Rechenzentren (z.B. Amazon Web Services). 

Diese beiden gegensätzlichen Prinzipien (dezentral vs. zentral) sind bei der Idee des Edge Computing jedoch mehr verbunden als man initial vermuten mag. Denn die Algorithmen und (Machine Learning) Modelle, die auf Edge Devices rechnen, müssen aktualisiert und gepflegt werden. Dies ist nur möglich, so man aktuelle Modelle von einer zentralen Infrastruktur aus pflegt und in die “Edge” pusht.

Zwei Personen in einem Rechenzentrum
Rechenzentren bzw. Cloud Computing ist in den meisten Fällen nötig, um Edge Computing zu ermöglichen.

Mehr noch: Die lokal erfassten Daten werden in den meisten Fällen von den Edge Devices auch in die Cloud synchronisiert. Dies liegt einerseits an der Notwendigkeit, dass Modelle mit viel Daten besser trainiert werden können, andererseits aber auch den einfachen Vorteil, dass das Unternehmen damit alle Daten zentral analysieren kann. Dies führt zu einem massiven Wettbewerbsvorteil versus dezentraler singulärer Datenverarbeitung.

Dass Edge Devices mit geringer Konnektivität dennoch bilateral mit der Cloud interagieren ist kein Widerspruch. Üblicherweise wird die mangelnde Verbindung mit asynchronen Methoden gelöst. Zum Beispiel wenn Geräte gewartet werden, werden auch die Modelle geupdated und Daten transferier.

Zusammengefasst ist es in den meisten Fällen so, dass Cloud Computing das Edge Computing erst ermöglicht. Vor allem die Aktualität und als Basis für Datenanalyse ist der beiderseitige Datenaustausch ein absolutes Muss.

Vorteile von Edge Computing

Wir haben bereits einige der Vorteile des Edge Computing anskizziert. Hier nochmal als Übersicht, weshalb lokale Verarbeitung Sinn macht und welche Probleme es löst:

  • Übertragungsdauer / Latenz: Viele Operationen benötigen eine sehr niedrige Latenz. Zum Beispiel ein Bilderkennungssensor in einer Fabrik kann nicht 4 Sekunden auf das Ergebnis warten, sondern muss die erfassten Bilder lokal verarbeiten.
  • Kosten: Cloud Computing sind meist zusätzliche Kosten, die zumindest teilweise auf das Edge Device umgelegt werden können. Zudem entfallen viele Kosten für die Übertragung der Daten.
  • Skalierbarkeit: In Stoßzeiten (z.B. bei Schichtwechsel oder Arbeitsbeginn) geraten manche Onlinesysteme schnell an ihre Grenzen. Edge Devices können dies abfedern.
  • Sicherheit: Konstruiert man seine IoT-Infrastruktur so, dass Modelle und Daten nur in gesicherten Netzwerken mit der Cloud synchronisiert werden, steigt die Sicherheit der Daten, da nicht kontinuierlich Daten übertragen werden.

Probleme mit Edge Computing

Selbstverständlich hat Edge Computing auch einige Nachteile bzw. Probleme:

  • Aktualität: Modelle und Algorithmen auf Edge Devices werden Stunden- bzw. Tagelang nicht aktualisiert und können somit schlechtere oder im schlimmsten Fall sogar falsche Ergebnisse liefern.
  • Hohe Datenmengen: Speicher ist auf Edge Devices oft sehr begrenzt. Werden Geräte eingesetzt die sehr hohe Mengen an Daten generieren und diese nicht regelmäßig synchronisiert, kann dies schnell zu Problemen führen.
  • Rechenintensive Anwendungen: Das gleiche gilt für die “Computing Power”, also die Rechenleistung von Edge Computing. Sie ist meist erheblich niedriger als Cloud Computing. Entsprechend muss Hardware und Software aufeinander abgestimmt werden.
  • Komplexere Architektur: Durch die massive Dezentralisierung von Geräten und die Interaktion mit zentralen Strukturen entsteht eine wesentlich komplexere Infrastruktur als “klassische” Rechenzentren.

Beispiele für Edge Computing

Edge Computing mag für manche ein neues Konzept sein, doch hat dessen Einsatz bereits weiten Einzug in unser tägliches Leben gefunden. Im Folgenden einige Beispiele, wie Edge Computing sinnvoll eingesetzt wird.

Zwei Männer begutachten eine Maschine einer Produktionsstraße
Manufacturing ist aufgrund ihrer Nähe zu IoT eines der wichtigsten Gebiete für Edge Computing.

Ausschussreduktion mittels Bilderkennung im Manufacturing

Edge Computing spielt eine sehr große Rolle im Manufacturing. Als ein simples jedoch weit verbreitetes Beispiel gilt die Ausschusserkennung mittels Bilderkennung. Ein Sensor (Kamera) nimmt am Band die produzierte Ware (z.B. Schrauben) auf, analysiert das Bild mittels eines neuronalen Netzes direkt auf dem Edge Devices und gibt die Ausschusswahrscheinlichkeit zurück. Die erfassten Bilddaten werden dann asynchron oder zur Downtime synchronisiert.

Alexa – Spracherkennung auf Stichwort

Sprachassistenten wie Alexa müssen sofort auf die Erkennung ihres Stichworts (“Alexa”) reagieren. Die Latenz, Geräusche erst zur Cloud zu schicken, zu analysieren und zurück zu schicken wäre zu lang für eine gute User Experience. Daher wird Edge Computing mit Cloud Computing kombiniert: Das Stichwort wird lokal erkannt, alle nachfolgenden Wörter werden in die Cloud überführt, analysiert und die Ergebnisse zurück gegeben.

Aussendienstmitarbeiter

Ein weiteres interessantes Beispiel für den Einsatz von künstlicher Intelligenz im Aussendienst ist die Nutzung von Empfehlungsalgorithmen wie Collaborative Filtering. Während der Algorithmus die eine Herausforderung ist, hat ein Aussendienstmitarbeiter oft sehr widrige Bedingungen in denen er agieren muss. Funklöcher, Fabrikhallen und ungeduldige Kunden sind nur ein paar Beispiele, weshalb Edge Computing viele Vorteile bringt. 

Ähnlich wie in den anderen Beispielen gilt allerdings auch hier: Die Synchronisierung zur Cloud oder dem zentralen Rechenzentrum muss mitgedacht werden.

Gartenwerkzeuge 4.0: Der Mähroboter als Edge Device

Mäh- oder Saugroboter gelten als die ersten autonom agierenden Geräte in unseren Haushalten. Und ihre Aufgabe ist nicht trivial: Hindernissen ausweichen, Areale erkennen, saugen oder schneiden, die Batterie aufladen und vieles mehr. All diese Aktionen müssen auch bei keiner oder schlechter Internetverbindung möglich sein. Folglich haben Mähroboter und andere IoT Gartengeräte meistens Edge Computing im Einsatz.

Fazit zum Einsatz von Edge Computing

Edge Computing ist ein sehr relevantes Gebiet, das durch die Zunahme von IoT und verteilten Systemen immer mehr an Bedeutung gewinnen wird. Für Unternehmen ist es wichtig zu verstehen, wann der Einsatz von Edge Computing sinnvoll ist und einen Mehrwert liefert und wann zentrale Strukturen die bessere Wahl sind.

Veröffentlicht am

Was hat Data Science eigentlich für ein Problem?

Jeder will es, kaum einer kann die Erfolgsgeschichten zu Tisch bringen. Und selbst jene Erfolge über die gesprochen wird, sind hart erkämpft. Was ist also das Problem mit Data Science, dass es so schwierig ist?

Um es kurz zu fassen: Es gibt nicht das eine Problem. Es sind eher mehrere Problemkategorien, die man betrachten muss um zu verstehen, warum Data Science Projekte so oft fehlschlagen. Dass die Schwierigkeit so breit ausgelegt ist hat zum Hintergrund, dass Daten aus allen Bereichen kommen und in alle Bereiche strahlen. Daher sind sie auch derart umfassend wie kaum ein anderer Bereich. Mehr noch: Die Problemkategorien von Data Science sind auch nicht durch die Nutzung von Daten entstanden, sondern waren schon vorher da und werden durch den Versuch, Daten als effektives Werkzeug im Unternehmen einzusetzen, nur sichtbar gemacht.

Legacy: Die Anderen sind schuld!

Starten wir mit etwas einfachem, was gleichermaßen selbstverständlich ist: Die Legacy. Als “Legacy” bezeichnet man Dinge, vor allem IT-Systeme, Organisationen oder Prozesse, die vor vielen Jahren etabliert wurden und inzwischen Probleme verursacht, die man vorher nicht (genügend) mitbedacht hat. Im einfachsten Fall ist dies zum Beispiel ein altes CRM (Customer Relationship Management System, also Kundenverwaltungsprogramm), in das man keine Social Media Accounts einpflegen kann. In schlimmeren Fällen sind es jedoch Systeme die mit der aufkommenden Datenmenge durch falsche Technologien oder schlechte Programmierung nicht mehr Schritt halten können. Während ersteres eher ein Luxusproblem darstellt (“Ich kann meinen Kunden kein Facebook zu zuordnen”), ist zweiteres betriebsgefährdend.

Was hat dieses sehr bekannte Problem mit Data Science zu tun? Nun, IT-Systeme waren in der Vergangenheit in den seltensten Fällen dafür gedacht, große Datenmengen zu produzieren, zu speichern und einfach und effektiv zur Weiterverarbeitung zur Verfügung zu stellen. Dies startet bei den Datenbanksystemen und reicht über Schemas bis zum Fehlen von Schnittstellen. Möchte man nun die Daten des Systems extrahieren um sie zu analysieren stößt man sehr schnell an Grenzen – ob nun gar keine API, unmögliche Datenmodelle oder sehr hoher Aufwand, sie automatisiert abzuziehen. 

Folgendermaßen trägt die IT-Landschaft dazu bei, dass Datenauswertungsinitiativen schnell scheitern oder nur mit sehr hohem Aufwand umgesetzt werden können. Der Aufwand, der einem entgegen wirkt um starten zu können wirkt daher oft in keinem Verhältnis zu dem Potential. Besonders, wenn man nur von Anwendungsfall zu Anwendungsfall denkt, statt strategisch langfristig zu agieren.

Mitten im digitalen Wandeln; digitalisierung ist noch nicht abgeschlossen, Datenrevolution

Datenqualität und -menge: Es reicht einfach nicht

Doch selbst wenn man Zugang zu den Systemen hat, heisst dies noch lange nicht, dass die vorliegenden Daten nutzbar sind. Die gesamte Thematik Datenqualität spielt eine große Rolle. Ob nun von einer mangelnden Verknüpfbarkeit von Datenquellen (“Unique Identifier”) oder schlechten Inhalten (Completeness, Correctness,..) geprägt: Sehr viele Unternehmen und vor allem auch frische Data Science Absolventen unterschätzen, was es heisst, mit realen Daten zu arbeiten. 

Besonders spannend wir diese Aufgabe immer dann, wenn Nutzer- oder Mitarbeiter-generierter Inhalt vorliegt. Kaum jemand “an der Front” kümmert sich üblicherweise darum, die Daten dann auch weiter zu nutzen. Attribute werden querbeet erfasst, Felder gar nicht oder mit einer Bandbreite an Platzhaltern gefüllt oder die IT hat allen Beteiligten das Leben einfach gemacht, indem sie keine Datentypenüberprüfung eingebaut hat. 

Alles führt zu einem Problem: Wir haben Daten, aber wir dürfen erst einmal einen sehr großen Aufwand betreiben, diese zu verknüpfen, säubern und aufzubereiten. Während bei einem Data Warehouse dies oft noch mitgedacht wurde, stösst Data Science eben in die Welt der Daten vor, die bisher kaum Beachtung findet: unstrukturierte, von Menschen generierte Daten. Und schnell erkennt man, dass man erst seit wenigen Jahren daran denkt, die erfassten Daten auch als Mehrwert nutzen zu wollen.

Ein weiterer Aspekt wenn man vorliegende Daten betrachtet ist ganz einfach die Menge und deren Granularität. Viele Unternehmen denken sie hätten “Big Data”, wenn sie eine Excel-Liste von 1000 Einträgen vorweisen können. Oder weil sie Google Analytics angeschlossen haben. Noch besser ist der Fall, wenn man aus Kostengründen bisher nur aggregierte Daten gespeichert hat. 

In keinem der Fälle liegen wirklich viele Daten vor. So mögen diese für grundständige Analyticsvorhaben genügen, aber für tiefergehende, auf Machine Learning basierte Data Mining Vorhaben eignen sich solche Datensätze sehr selten. Folglich muss man oft auch die Wahrnehmung korrigieren, was viele Daten sind, was besondere Datensätze (mit Wert!) sind und dass man doch in vielen Fällen erst einmal drei Schritte zurück machen und Daten erheben muss, bevor man sinnvolle Anwendungsfälle umsetzen kann.

Expertise – wirklich erfahrene Mitarbeiter

Während obige beiden Probleme meist erst im Versuch der Umsetzung von Data Science Projekten auftreten, gibt es schon vorab ein großes Problem: Erfahrung. Seit Daten das neue Öl sind und der Data Scientist der sexisiest Job im 21. Jahrhundert ist, hat der Run auf die Rolle begonnen. Die Online-Bootcamps von fragwürdiger Natur bilden tausende von jungen Menschen auf den immergleichen Datensätzen aus, Datenwissenschaft ist als Bachelor-Studiengang im Kommen und jeder, der einmal ein Modell trainiert hat, kennt sich plötzlich mit Artificial Intelligence aus.

Leider merkt man diesen “Goldrush” auch sehr schnell in Qualität und Weitblick der verfügbaren Mitarbeiter. Unzählige Stellen als Data Scientist und Data Engineer werden besetzt, aber ebenso unzählige Stellen bleiben unbesetzt. Der Grund ist simpel: Wer keine reale Erfahrung hat, bringt in ein Unternehmen sehr viel weniger ein, als jemand der bereits einige Jahre den gesamten Data Science Prozess durchlebt hat. Daher ist es oft nicht eine Frage ob es genug Absolventen für eine Rolle gibt, sondern vielmehr ob es genügend qualifizierte Bewerber gibt. 

Ich bin inzwischen der festen Überzeugung, dass der Aufbau eines Data Science Teams “von unten”, also über Juniors, kaum möglich ist. Viele Unternehmen stellen Pro Forma (um CEO und Board zu beglücken) ein paar “Data Scientists” ein und lassen sie arbeiten. Mit dem Erfolg, dass sie gar nicht arbeiten können und falls sie es doch tun, laufen sie in die immer gleichen Probleme: Systeme, Daten, Zugriffe, Qualität, Modellqualität, Operationalisierung, Concept Drift, etc. Der harte Weg des Selbststudiums ist toll – aber mehr Wert bringt, wer sich bereits zu bewegen weiß. Und diese Mitarbeiter kosten viel Geld, weil sie es sind die rar sind. Was wiederum Commitment des Managements benötigt – bevor diesem klar ist, was der Effekt ist. Ein klassisches Henne-Ei-Problem.

Identifikation und Bewertung von Anwendungsfällen: Wo liegt der Wert?

Nehmen wir an, wir hätten super Daten vorliegen und ein Team, das bereits Erfahrung in einem anderen Unternehmen sammeln konnte. Der CEO klatscht die Beispiele von Uber und Facebook auf den Tisch und wartet auf Ergebnisse. Das Problem ist nur, dass wir in einem mittelständischen Industrieunternehmen arbeiten und nicht im Silicon Valley. 

Das Problem “Und nun?” kommt nicht nur bei frischen Absolventen oder KMUs vor. Selbst sehr erfahrene, technisch versierte und algorithmisch exzellente Mitarbeiter haben oft Schwierigkeiten, Anwendungsfälle zu identifizieren die a) Nicht den 100 Standard Use Cases entsprechen b) nicht 5 Jahre Forschungsaufwand bedeuten und c) auch wirklich für das eigene Unternehmen einen Wert bringen und nicht bei einem anderen wunderbar funktionieren würden. 

Diese Kategorie ist nicht so einfach zu lösen. Viele Unternehmen lassen sich von anderen Unternehmen inspirieren – ob nun Startup, Unicorn oder Beratung. Dies sind aber nur Impulse und lösen nicht langfristig die Frage: Wie können wir Wert aus unseren Daten schaffen? Dass ich diese Frage als eigene Kategorie aufwerfe und somit sehr zentral in den Blick stelle hat natürlich einen Hintergrund: Ich bin der Ansicht, dass dieses Thema nach Anwendungsfällen ähnlich einer Produktentwicklung etabliert werden muss. 

Wenn datenbasierte Anwendungsfälle – egal ob nun als eigenes Produkt, Service oder als Unterstützung für vorhandene Produkte und Services – einen ähnlichen Stellenwert bekommen wie das Produkt an sich, schafft man es, Ansätze früh zu erfassen, evaluieren und entsprechend zu priorisieren. Die Kreativität kann spielen, Domänenexperten validieren (kundenzentriert) die Ideen und eine Priorisierung erlaubt eine Fokussierung. Nur wenn alle diese Teilaspekte mit eingeschlossen werden, schafft man es auch wirklich, aus den Daten Wert zu generieren.

Datenkultur: Nur wer es lebt, kann es vertreten

Abschließend ein Thema, das alle anderen zusammen bringt: Die Kultur. Manager sind gut darin, fabelhafte Strategien zu erstellen oder erstellen zu lassen, diese zu proklamieren und dann.. andere Dinge zu tun. Was danach passiert? Genau das, weshalb die deutsche Digitalisierung dort steht wo sie steht: Nichts. Besonders passend finde ich hierbei ein Zitat von Peter Drucker:

Culture eats strategy for breakfast

– Peter Drucker

Es ist ganz einfach: Nur weil man eine (Daten-)Strategie ausarbeitet, wird diese noch lange nicht verfolgt. Wenige Mitarbeiter prüfen kontinuierlich ob ihre Arbeit in die Strategie einzahlt und justieren ihre Tätigkeiten entsprechend. Stattdessen tun sie, was am besten in ihrem eigenen Interesse ist oder – was sie gewohnt sind. 

Was heisst das für uns? Nun, wenn wir als Ziel haben, unser Unternehmen durch den Wert von Daten gewinnen zu lassen, ist der umfassende Kleber der alles zusammenhält eine integrierte Datenkultur. Diese wird etabliert und gefördert durch (interne) Marketingmaßnahmen, Wissenstransfers und Trainings, Aufklärung, aber auch die proaktive Botschaft, dass Daten uns neue Wege eröffnet. Und dies ist ein ganz klares, unmissverständliches Management-Commitment. Kombiniert man diese Tätigkeiten – Verständnis, Akzeptanz und kontinuierliche Etablierung von Data Science im Alltag – hat man gute Chancen, dass sich das Unternehmen in eine Data Driven Company transformiert, die eine starke Datenkultur verkörpert.

Das Beste zum Schluss: Nebst all den operativen Problemen ist Data Science so schwierig, da es wohl das erste Mal ist, dass ein Unternehmen kontinuierlich über alle Bereiche hinweg zusammenarbeiten muss, um Erfolge zu erzielen. Die Zeit, in der eine Abteilung als Königreich seine eigenen Erfolge erzielen und feiern kann, geht mit einer holistischen, datenbasierten Arbeit zu Ende. 

Bisher konnten Arbeiten innerhalb einer Domäne erledigt werden (zum Beispiel Dashboards im Marketing) oder zumindest relativ einfach an die Querfunktionen übergeben werden (z.B. Evaluierung neuer IT-Systeme). 

Mit dem Einsatz von Data Science benötigt es die Domänenexperten zur Identifikation von Anwendungsfällen, die Techies aus der IT und die Fachexperten aus dem Datenbereich im konstanten Austausch, um Use Cases, Datenauswertung und Technologie zusammen zu bringen. Die Verantwortung diffundiert und nur durch eine starke Zusammenarbeit gelingt es, zur Data Driven Company zu werden. Und die Kombination von diesen vielen Stärken ist die Chance, aber eben auch die Herausforderung im Bereich Data Science.

Veröffentlicht am

Was sind eigentlich Daten?

Generell werden erfasste Zahlen, Text oder andere Werte als “Daten” bezeichnet. Ein Datum – die Einzahl von Daten – kann somit nicht nur das Geburtsdatum einer Person sein, sondern sehr wohl auch das Alter, die Haarfarbe oder ein Foto.

Welche Arten von Daten gibt es?

Bereits in diesem ersten Abschnitt merkt man, dass eine hohe Bandbreite an Daten gibt. Es ist ein sehr breiter Begriff, der viele Arten von erfassten Dingen bezeichnet. Als Basis muss man die existierenden Datentypen betrachten:

  • Binäre Daten: Die älteste Datenart ist “binär”, also entweder 0 oder 1. Mit binären Daten, sehr eng verwandt mit boolschen Daten (“wahr” / “falsch”), kann also ein einfacher Status dargestellt werden – etwa “an” oder “aus”. Binäre Daten sind die einzigen Datentypen die direkt von der Hardware eines Computers verarbeitet werden können.
  • Numerische Daten: Mit binären Daten kann man Zahlen darstellen. Das auch als “Zweiersystem” bezeichnete Vorgehen nutzt eine Anordnung von Nullen und Einsen um andere Zahlen dar zu stellen. Die 5 wäre beispielsweise als 0101 repräsentiert. Somit können alle Zahlen von 0 bis 9 dargestellt werden.
  • Zeichen, Strings oder Text: Einzelne Buchstaben lassen sich zu Strings (= Wörter) oder eben einen ganzen Text zusammensetzen.
  • Bild und Ton: Multimedia-Daten wie Fotos, Videos oder Audio basieren wiederum auf den vorhergehenden Datentypen. Ein Bild ist zum Beispiel nichts anders als eine kodierte Anordnung von numerischen Werten, die einen Farbwert je Pixel definieren. Videos das gleiche nur eben mit einer zusätzlichen Dimension “Zeit”. 
  • Andere Daten: Ergänzend dazu gibt es selbstverständlich noch hunderte anderer Datentypen wie Listen, Arrays, Zeit, oder Verfeinerungen wie Double, BLOB, etc. Doch all diese basieren wiederum nur auf den vorhergehenden Grundtypen.

Zeichen vs. Daten vs. Information vs. Wissen

Wer sich beim vorhergehenden Abschnitt gelangweilt hat, denkt nicht mehr in Daten sondern in Informationen oder sogar bereits dem Wissen. Dieses als “Wissenspyramide” bezeichnete Konzept besagt, dass Zeichen (zum Beispiel “1”, “4”, “2”) nur mit Syntax zu Daten (z.B. “1,42”) wird. Ein Datum hingegen kann erst durch Kontext (z.B. “1,42€”) zur Information transformiert werden. Setzt man dann noch Erfahrung darauf (z.B. “Wechselkurs 1,42€”), erhält man Wissen.

Für uns heisst das: Als Daten werden eigentlich nur die “roh” erfassten Werte bezeichnet, ohne eine semantische Interpretation, die es bereits zur Information werden lassen. Also die reinen Zahlen, Zeichen oder binären Werte. Sprechen wir hingegen von Bildern, Bewegungsdaten, Kundendaten oder ähnlichem, befinden wir uns bereits auf der Informationsebene.

Strukturierte, semi-strukturierte und unstrukturierte Daten

Einer der größten Unterschiede der im Bereich Daten, vor allem in Data Analytics und Data Science, gemacht wird, ist zwischen strukturierten, semi-strukturierten und unstrukturierten Daten. Diese Unterscheidung bezieht sich auf die Erfassungsart einerseits, aber denotiert sogleich auch wie auf diese Daten zur Auswertung zugegriffen werden kann.

Strukturierte Daten sind, einfach gesagt, tabellarische Daten. Ein Datensatz von Kunden mit Name, Adresse und Jahresumsatz wären klassische strukturierte Daten. Diese Datenkategorie ist tief in den Unternehmen verankert. Excel-Files, Controlling, Transaktionsdaten – all diese Daten sind strukturiert, erfasst und gepflegt. 

Als semi-strukturiert bezeichnet man Daten, die meist als Key-Value-Pairs gespeichert werden, aber nicht vollständig sein müssen. Als Beispiel wäre ein Datensatz, bei dem sowohl Kunden als auch Lieferanten im gleichen Format gespeichert werden – sich jedoch in den Attributen (zum Beispiel “Lieferkonditionen”) unterscheiden. Klassische Formate sind hierbei JSON.

Unstrukturierte Daten hingegen sind das Ziel vieler Initiativen im Bereich Data Science. Diese Kategorie “Big Data” umfasst Daten wie Bilder, Text (zum Beispiel Social Media oder PDFs) und Audio. Hierzu gibt es keine einfache Erfassung des Datums an sich, sondern es können viele Informationen extrahiert werden. Zum Beispiel ist ein Bild einmal gespeichert, kann aber dann auf eine Vielzahl an Parameter analysiert werden (z.B. Auflösung, Farbgebung, Inhalt, Kameratype,..). Unstrukturierte Daten beherbergen somit ein sehr hohes Informationspotential – aber ebenso kostet es viel Aufwand, diese Daten zu verarbeiten.

Der Einsatz von Daten: Beispiele

Nun ist in der Theorie klar, was Daten sind. Aber wieso werden Daten als das neue Öl gehandelt? Der Grund dafür liegt an der Information bzw. dem Wissen das man aus den vorliegenden Daten extrahieren kann. Durch den Einsatz von Datenanalyse, künstlicher Intelligenz und anderen Data Science Methoden kann das Verhalten von Menschen und Maschinen quantifiziert, Erkenntnisse gewonnen und im besten Fall die Zukunft vorhergesagt werden. Hier einige einfache Beispiele, weshalb Daten so interessant für Unternehmen und andere Organisationen sind:

  • Kundendaten: Durch einen strukturierten Kundendatensatz, gegebenenfalls kombiniert mit unstrukturierten Kommunikationsdaten wie E-Mails, kann man sehr gut und deutlich auswerten ob die Kunden zufrieden sind und wie man sie am besten ansprechen sollte.
  • IoT-Sensordaten: Technologie, die Bilder und Geräusche aufnimmt erlaubt Bilderkennung, Analyse von Audio-Informationen und entsprechende Adjustierungen des Geräts, zum Beispiel die Steuerung einer Heizung oder das Öffnen der Tür für relevante Personen.
  • Verhaltensdaten: Umso mehr man über das Verhalten von Menschen als Daten erfassen kann (zum Beispiel Einkäufe, SMS, Bewegungsdaten), umso besser kann man das zukünftige Verhalten vorhersagen.
  • Textdaten: Durch Verarbeitung von riesigen öffentlichen Textmengen mittels Machine Learning und Neuronalen Netzen kann man Modelle trainieren, die selbst Texte schreiben. Eines der bekanntesten Beispiele in diesem Bereich ist GPT-3.

Konkrete Anwendungsfälle von Daten

Probleme beim Einsatz von Daten

Natürlich gibt es auch Herausforderungen beim Aufnehmen, Speichern und Auswerten von Daten. Einige Beispiele für die Probleme von Daten sind:

  • Datenmengen: Es werden teilweise unglaubliche Datenmengen produziert, die sehr schwierig zu erfassen, aber noch schwieriger auszuwerten sind
  • Datenqualität: Erfasste Daten sind oft nicht konsistent, korrekt oder aktuell
  • DSGVO: Personenbezogene Daten wie Namen oder Adressen unterliegen strikten Richtlinien
  • Expertise: Es erfordert Data Scientist Experten um derartige Daten auszuwerten

Was sind eigentlich Daten? Einfach gesagt.

Daten sind erfasste Bruchstücke der Realität, die mittels Kontext zu Informationen angereichert werden können. Ob nun strukturiert (tabellarische Zahlen, zum Beispiel Umsatzzahlen) oder unstrukturiert (z.B. Social Media, Video): Viele Unternehmen sehen den Wert von Daten und investieren viel, um diese zu nutzen.

Veröffentlicht am

Machine Learning vs. Deep Learning: Was ist der Unterschied?

Was ist der Unterschied zwischen Künstlicher Intelligenz, Maschinellen Lernen, Neuronalen Netzwerken und Deep Learning?

Der Unterschied zwischen Machine Learning und Deep Learning ist, dass maschinelles Lernen eine Bandbreite an Methoden umfasst, wovon eine vertieftes Lernen ist. Folglich ist Deep Learning eine Art von Machine Learning, die auf neuronalen Netzen basiert.

Kurz gesagt: Was ist Machine Learning?

Machine Learning, oder auf Deutsch maschinelles Lernen, ist der Einsatz von Algorithmen um menschenähnliches Verhalten zu simulieren. Das Ziel hierbei ist es, ein Problem möglichst gut zu lösen, dabei aber für neu auftretende Probleme dieser Art Raum zu lassen. So kann Machine Learning bestimmte Probleme perfekt lösen, aber versagt dann in der Realität, da er sich zu sehr auf die Trainingsdaten spezialisiert hat (sog. Overfitting).

Der Bereich Machine Learning wird meist in drei Bereiche gegliedert: Supervised Learning, Unsupervised Learning und Reinforcement Learning. Dabei wird im ersten Fall anhand von Beispielen ein Konzept gelernt, im zweiten wird nur innerhalb der Daten nach Mustern gesucht und der dritte Fall ist ein komplexes Zusammenspiel zwischen Daten und dem Agenten, der versucht, sich selbst zu optimieren.

Allgemein ist Machine Learning eine Art von künstlicher Intelligenz. Nebst maschinellen Lernen gibt es zum Beispiel auch regelbasierte Systeme oder die sogenannte starke Intelligenz, die nicht nur spezielle Probleme lösen kann, sondern vollkommen flexibel und menschähnlich agiert. Von dieser “strong AI” sind wir jedoch faktisch noch sehr weit entfernt.

Kurz gesagt: Was ist Deep Learning?

Wie eingangs erwähnt ist Deep Learning eine von vielen Methoden im Bereich künstliche Intelligenz und somit im Bereich Machine Learning. Noch genauer ist Deep Learning eine Art von neuronalen Netzwerken (Neural Networks), das mehrere Hidden Layer besitzt. Ein Hidden Layer ist quasi die Abstraktionsebene zwischen dem Input und Output, was “Zwischenkonzepte” erarbeitet. 

Als Beispiel kann der Input ein Bild sein, die erste verdeckte Schicht sich auf Kanten im Bild spezialisieren und die zweite verdeckte Schicht auf den Unterschied von Kreisen und Rechtecken. Da dieses Beispiel ein neuronales Netz ist, das mehr als ein Hidden Layer besitzt, gilt es als “Deep Learning” oder zu deutsch “vertieftes Lernen”.

Einfach gesagt ist Deep Learning also ein neuronales Netz, das mehr als eine verdeckte Schicht besitzt. Und neuronale Netze sind Methoden innerhalb von Machine Learning, was wiederum ein Teilgebiet von künstlicher Intelligenz darstellt. 

Einfach erklärt: Was ist der Unterschied zwischen Machine Learning und Deep Learning?

Zusammengefasst ist der Unterschied zwischen Machine Learning und Deep Learning, dass Deep Learning eine Methode im Gebiet des maschinellen Lernens darstellt. Genauer ist Deep Learning ein neuronales Netz, was als Methodik fest im Bereich künstlicher Intelligenz verankert ist. 

Veröffentlicht am

Künstliche neuronale Netze und Deep Learning einfach erklärt

Neuronen die ein wolkenartiges Gehirn formieren

Data Science wäre nicht komplett ohne künstliche neuronale Netze und Deep Learning. Daher möchten wir in diesem Artikel die beiden Konzepte einfach erklären, die Bestandteile und den Algorithmus vorstellen und Probleme vorstellen. Unser Ziel ist es, eine einfache Definition zur Verfügung zu stellen, die dennoch die Tragweite eines der wichtigsten Themen im Bereich Data Science, Machine Learning und Big Data abdeckt.

Inhaltsverzeichnis

Was ist ein künstliches neuronales Netz (KNN)?

Ein künstliches neuronales Netz ist eine Methode des maschinellen Lernens im Bereich der künstlichen Intelligenz. Es basiert, wie der Name bereits verrät, auf dem biologischen Konzept von Neuronen. Neuronen in unseren Gehirnen sammeln Signale aus umliegenden Zellen, geben jedem Signal ein Gewicht (“Wie wichtig ist dieses Signal?”) und entscheiden dann, ob sie selbst ein Signal senden. 

Diesem Prinzip folgend sind KNNs (englisch “artificial neural network”, ANN) aufgebaut. Es besitzt Input- (Eingabe, zum Beispiel ein Foto eines Tiers), Zwischen- und Output- (Ausgabe, zum Beispiel die Kategorisierung Hund / Katze) Ebenen. Während die Eingabe der Aufnahme der Signale entspricht, wird in den mittleren Ebenen (“Layers”) entschieden wie das Netz darauf reagiert, um den Output zu generieren. Ganz praktisch kann man sich künstliche neuronale Netze als Reihe von Regeln in einem Computerprogramm vorstellen, welches dann selbstständig basierend auf der Eingabe lernt, wie es reagieren soll – das sogenannte abstrakte Konzept des Inputs.

Warum sollte man also künstliche neuronale Netze einsetzen? Die Besonderheit an künstlichen neuronalen Netzen im Vergleich zu anderen Algorithmen, besonders auch zu anderen Machine Learning ist, dass KNNs abstrakte Zwischenkonzepte lernen können. So kann zum Beispiel bei der Eingabe “Gesicht” nicht nur entschieden werden ob es ein Gesicht ist oder nicht, sondern das Netz lernt zum Beispiel, dass zwei runde Objekte auf der Hälfte des Inputs positioniert sein müssen, um als Gesicht qualifiziert zu werden. 

Einfach erklärt: Ein künstliches neuronales Netz lernt abstrakte Konzepte

Einfach gesagt nutzt ein neuronales Netz Lernmaterial (zum Beispiel Bilder) um daraus ein allgemeines Konzept (“Modell”) zu lernen. Dieses Konzept kann dann genutzt werden, um Werte vorherzusagen oder neu präsentiertes Material in eine Kategorie (zum Beispiel Hund / Katze) einzuordnen.

Der neurobiologische Hintergrund von neuronalen Netzen

Wie bereits anskizziert kommt die Idee für die Konstruktion von künstlichen neuronalen Netzen aus der Neurobiologie. Neuronen übernehmen die Aufgabe der Signalweiterleitung und -konsolidierung im menschlichen Körper. So kann sensorischer Input (zum Beispiel das Sehen eines Bildes) in andere Signale umgewandelt werden, die eine Reaktion (zum Beispiel Emotionen) auslösen.

Ein Plastikgehirn mit vergrößerter Nervenzelle
Dendriten, Axon, Axonhügel: Die Grundlage allen Denkens

Dabei besteht der klassische Aufbau eines Neurons aus drei wesentlichen Teilen: Den Dendriten, die Signale aufnehmen, dem Axonhügel, der bestimmt ob ein Signal weitergeleitet wird und dem Axon, das ein neues Signal an andere Neuronen weiterleitet.

Die Signalverarbeitung im Neuron beginnt bei der Aufnahme von Signalen anderer Zellen an den Dendriten. Jedes Neuron hat zahlreiche, weitverzweigte Dendriten, die an viele andere Zellen angrenzen. Somit kann jedes Neuron quasi aufspüren, falls andere Zellen aktiv sind. Diese Signale – elektrisch oder chemisch – nehmen Dendriten auf und führen sie der Zelle zu.

Innerhalb der Zelle löst das Signal üblicherweise eine Reaktion aus. Dabei gibt es viele verschiedene Arten, wie Zellen auf Signale reagieren. Manche reagieren graduell (umso größer der Input, umso größer der Output) andere hingegen diskret (nur bei Überschreitung eines bestimmten Schwellwerts wird ein Output generiert). Ob, wann und welcher Output dabei generiert wird ist hoch individuell und die Entscheidung dazu fällt generell am Axonhügel (Englisch Axon Hillock), welcher als Art “Tor” zum Axon dient.

Das Axon ist nun quasi der Ausgabekanal. Falls ein Signal innerhalb der Zelle ausgelöst wurde, ist es die Aufgabe des Axons dieses Signal an andere Zellen weiter zu leiten. Und hier sieht man bereits den zirkulären Prozess: An jedem Axon docken wiederum Dendriten anderer Zellen an, weshalb ein Netz aus Neuronen entsteht.

Diese Prozesse laufen kontinuierlich und jederzeit in unserem Körper ab. Doch das dargestellte Beispiel notiert nur die Verhaltensweise von bereits trainierten Neuronen. Der Gedankentransfer in die Welt der Informatik und somit die künstlichen Neuronen liegt darin, dass hier den Neuronen erst beigebracht werden muss, wie sie reagieren sollen. Und genau dies ist eine der Hauptaufgaben im Bereich Data Science bzw. in der Modellierung von künstlichen neuronalen Netzen.

Ein wichtiger Unterschied in der Terminologie ist, dass künstliche neuronale Netze nicht versuchen alle Eigenheiten eines Neurons zu simulieren (dieses Vorgehen ist eher in der Computational Neuroscience und Projekten wie dem Blue Brain Project zu finden), sondern es steht eher das Grobkonzept der Signalverarbeitung zur Kreation eines Konzepts (Modells) im Fokus.

Die Geschichte von künstlichen neuronalen Netzwerken

Hier eine kurze Zusammenfassung der Historie von neuronalen Netzwerken und Deep Learning:

  • 1943: McCulloch und Pitts erstellen erstes algorithmisches Modell das einem Neuron ähnelt
  • 1958: Rosenblatt definiert und programmiert das Perzeptron, das erste Modell eines künstlichen Neurons
  • 1965: Das erste Modell mit mehreren Ebenen wird von Ivakhnenko und Lapa erstellt
  • 1975: Backpropagation, also das Zurückführen von erkannten Fehlern, betritt durch Werbo die Bühne
  • 1985: Neural Networks for Computing – eine Konferenz zum Thema startet
  • 1997: Rekurrente neuronale Netze werden vorgestellt
  • 2010: Deep Learning wird auf Grafikkarten getestet und etabliert

Das einfachste KNN: Das Perzeptron

BILD

Ein einfacher Weg künstliche neuronale Netze auch visuell zu erklären ist das Perzeptron, das 1958 von Rosenblatt vorgestellt wurde. Das Perzeptron besitzt drei einfache Komponenten: Die Eingabe, eine Gewichtung jedes Teils der Eingabe und eine Summenfunktion die entscheidet, ob positiv oder negativ auf die Eingabe reagiert werden soll.

BILD

Als Beispiel hier die Funktionsweise eines Perzeptrons. Die drei Inputs (0.8, 0.2, 0.7) werden mit ihren Gewichten (0.5, 1, 0.1) multipliziert und aufsummiert (= 0.4 + 0.2 + 0.07 = 0.67). Da sich dieses Ergebnis über der Aktivierungsgrenze (0.6) befindet, meldet das Perzeptron positiv.

Was ist Deep Learning (DL)?

BILD: NN vs. DL

Ein weiterer Begriff der oft im Zusammenhang mit neuronalen Netzen fällt ist “Deep Learning” oder auf Deutsch “tiefes Lernen”. Dabei ist Deep Learning eine Art von neuronalen Netzen, keine eigene Methode. Das hauptsächliche Merkmal von Deep Learning ist gut am deutschen Synonym “mehrschichtiges Lernen” zu erkennen. Denn Deep Learning bezeichnet prinzipiell nichts anderes als ein künstliches neuronales Netz, das mehrere Hidden Layer besitzt. 

Ein einfaches Beispiel für den Einsatz von neuronalen Netzen

Einer der prominentesten Anwendungsfälle für die Leistung von neuronalen Netzen ist die Handschrifterkennung, genauer die Erkennung von handgeschriebenen Zahlen. Der Ursprung ist die Schwierigkeit, diese von Menschen sehr einfach zu erledigende Aufgabe von herkömmlichen Algorithmen der künstlichen Intelligenz lösen zu lassen.

BILD

Generell klingt die Wahrnehmung von Zahlen nicht besonders schwierig, vor allem da unser Gehirn sehr problemlos dazu fähig ist. Doch wer versucht, ein herkömmliches Computerprogramm zur Erkennung von Handschrift zu schreiben, erkennt schnell wie schwer es ist. Die Schwierigkeit liegt einerseits darin, dass Zahlen aus mehreren Komponenten (z.B. Striche, Kreise) aufgebaut sind, die je nach Anordnung einen anderen Sinn ergeben. Andererseits variiert die Handschrift minimal bis erheblich zwischen Personen, so dass es nicht möglich ist, ein einfaches Template zu nutzen.

BILD

Neuronale Netze lösen die Probleme durch zwei Herangehensweisen. Erstens nutzen sie eine Vielzahl an Trainingsdaten um die Varianz an möglichen Handschriften abzudecken. Dies führt dazu, dass ein Großteil an menschlichen Besonderheiten direkt von Anfang an durch Deep Learning mitbeachtet wird und nicht später gelernt werden muss. Zweitens lernt ein künstliches neuronales Netz nicht fixe Regeln, sondern eher die “Idee” der Zahlen in abstrakter Weise. Das erlaubt, dass neuer, unbekannter Input oder auch andere Schriften wie Computerschriftarten durch das Modell eingeordnet werden können.

Dass die Erkennung von handgeschriebenen Zahlen so gerne als Beispiel für künstliche neuronale Netze genutzt wird hat zwei Gründe. Zum Einen war die Erkennung von Zahlen für jedes Post-Unternehmen dieser Welt seit jeher eine Mammutaufgabe. Vor allem Postleitzahlen zu erkennen war einer der wichtigsten Aufgaben für den Menschen bei der Vorsortierung von Briefen, so dass dies massive Kosten verursacht hat. 

Als zweiten Grund für die Beliebtheit des Anwendungsfalls “Zahlenerkennung” kann man den 1998 veröffentlichten Datensatz “MNIST” nehmen. Dieser enthält 70.000 Bilder von handgeschriebenen Zahlen und wird seitdem gerne als Leistungsmetrik von Machine Learning Algorithmen eingesetzt. Dass sich die Fehlerrate bei der Erkennung von handschriftlichen Zahlen von 8% (1998) auf inzwischen 0.18% verringert, zeigt auch wie sich die eingesetzten Algorithmen weiterentwickeln.

Aufbau und Bestandteile künstlicher neuronaler Netze

Neuronale Netze bestehen im Prinzip immer aus vier Bestandteilen: Dem Input-Layer, dem/den Hidden-Layer/n, dem Output-Layer und Kanten die die einzelnen Layer verbinden. Genauer verbinden die Kanten einzelne Knoten innerhalb der Layer, wobei jeder “Knoten” als eine Art Container für einen numerischen Wert fungiert. Die Kanten zwischen den Knoten sind mit Gewichten versehen, die definieren wie der Input über die Kante zum nächsten Knoten berechnet wird. Die Anordnung dieser Bestandteile – die sogenannte Topologie – hängt stark von der Art und dem Einsatzzweck des Netzwerks ab. 

Generell ist es wichtig, sich vorab Gedanken über die Anordnung, Vernetzung und vor allem auch Anzahl an Hidden Layern und der Knoten je Hidden Layer zu machen, da davon sehr stark die Anforderungen an die Rechenleistung und Infrastruktur definiert werden. Üblicherweise werden heute mehrschichtige Netzwerke eingesetzt (= Deep Learning); einschichtige neuronale Netze sind sehr selten, da sie kaum abstrahieren können.

Input-Layer

Der Input sind die zu lernenden Konzepte und bestehen zum Beispiel aus annotierten Bildern, Text oder einfach numerischen Werten. Ganz konkret ist beispielsweise der Grauwert eines Pixels eines Bildes ein typischer Inputwert für ein neuronales Netz. Folglich kommt ein Inputlayer schon bei einer sehr spärlichen Größe eines Bildes von nur 32 x 32 Pixel auf 1024 Input-Knoten. Bei einer Größe von 256 x 256 sprechen wir bereits über 65.536 Pixel. Als Vergleichswert: Normale Digitale Fotos haben heute gerne mal 12 Megapixel, also würde bei einem vollauflösenden Bild der Inputlayer aus über 12 Millionen Knoten bestehen.

Hidden Layer

Das oder die Hidden-Layer stehen zwischen Input und Output und repräsentieren den Status von (Teil-)Konzepten. Damit repräsentieren sie auch den zentralen Teil bei neuronalen Netzen, da sie den “Lern”-Teil erst ermöglichen. 

Es gibt eine Bandbreite an möglichen Parametern in den Hidden Layern. Alleine die Frage wie viele “versteckte Schichten” bei einem Netzwerk eingesetzt werden muss aus vielen Blickwinkeln betrachtet werden. Einer der relevantesten ist tatsächlich schlicht die Potenzierung der Anforderungen an die Rechenkapazitäten. 

Nehmen wir das Beispiel eines Inputs von 256 x 256 Pixeln, also 65.536 Input-Knoten. Bei einer einfachen Deep Learning Topologie mit zwei Hidden Layern und Vollverknüpfung heisst dies, dass Kanten zwischen allen Knoten aller vier Schichten gewichtet werden. Folglich wäre die Anzahl der Gewichte bei 2 x (65.536 x 65.536) = 8,5 Milliarden Werten. 

Führt man diesen Gedanken weiter, erkennt man dass jedes dieser 8,5 Milliarden Gewichte bei jedem Trainings-Stimulus berechnet und aktualisiert werden muss. Ich denke an diesem einfachen Beispiel erkennt man schnell, warum es wichtig ist, gut zu planen welche Topologie, aber vor allem auch wie viele Input-Knoten man in seinem neuronalen Netz einsetzt.

Output-Layer

Als letztes Layer steht der Output-Layer, also die Ausgabe. Die Ausgabe kann verschiedene Formen annehmen, je nach Art des neuronalen Netzes. Die wohl häufigste Ausgabe ist eine Kategorie (“Label”), welches vorher trainiert wurde. Alternativ sind allerdings auch Vorhersagen von Werten (z.B. Umsatz) oder auch neue, generierte Objekte wie Bilder durch generative neuronale Netzwerke möglich.

Welche Form der Output auch annimmt, die Ausgabe ist auch das Ergebnis das weiterverarbeitet werden kann. Im Gegensatz zu den Hidden-Layer, den Kanten und deren Gewichte, die aufgrund der schieren Masse nicht bzw. nur sehr schwer weiterverarbeitet werden können, ist der Output das überprüfbare Ergebnis der Anwendungs des Lernens.

Daher erfüllt das Output-Layer zwei wichtige Funktionen. Zum Einen erlaubt es während des Trainings eine Entscheidung zu fällen, um diese Entscheidung mit der Realität gegenzuprüfen, ob das neuronale Netz bereits ausreichend trainiert ist. Zum Anderen ist das Ergebnis nach Abschluss der Optimierung des KNNs auch der Aspekt, der die finale “Aussage” des Netzwerks ist und somit weiterverarbeitet wird.

Kanten und Gewichte

Der wichtigste Teil in jedem neuronalen Netzwerk sind die Kanten und die dazugehörigen Gewichte. Eine Kante verbindet zwei Knoten aus zwei verschiedenen Layern oder auch innerhalb eines Layers miteinander. Jede Kante ist mit einem Gewicht versehen, welches definiert, wie der Wert des Ursprungsknoten (z.B. Input-Pixel) auf den nächsten Knoten umgerechnet wird.

Diese Gewichte sind das Herzstück von Deep Learning, denn sie repräsentieren das gelernte Konzept. Um abermals das Beispiel des Bildes mit einem Hund oder einer Katze zu bemühen, kann ein neuronales Netz lernen, dass ein hoher Identifikator für die Kategorie “Katze” spitze Ohren sind. Somit würden Pixel, die sich dort befinden, wo üblicherweise Ohren befinden, in einer eher spitz zulaufenden Weise hoch gewichtet werden. Während gleichzeitig Schlappohren sehr niedrig gewichtet werden könnten.

Bedenkt man nun die unmöglich hohe Variation an Input-Material mit der unglaublich hohen Nummer an Gewichten und den Teilkonzepten, die ein neuronales Netz lernt, hat man erkannt, weshalb ein Netzwerk einerseits faszinierende Ergebnisse liefern kann, andererseits aber auch sehr hohe Anforderungen an Technologie, Rechenkapazität und Fachwissen von Machine Learning Modellierung stellt.

Die algorithmische Funktionsweise: Wie lernen künstliche neuronale Netze?

Der Input: Features und Labels

Üblicherweise besteht der Input eines neuronalen Netzes aus einem “Stimulus”, also Bildern, Texten, Sound oder ähnlichem. Um beim Beispiel des Bildes zu bleiben: Hier besteht der Input normalerweise aus dem Grauwert jedes einzelnen Pixels. Bei tabellarischem Input wäre jedes Feature ein Input-Wert, wie beispielsweise alle Attribute eines Kunden (z.B. Dauer Mitgliedschaft, Geburtsjahr, Anzahl an genutzten Services..). In den meisten Fällen fällt der Input auch in die Kategorie “Big Data”, vor allem weil er unstrukturiert, von großer Menge oder sehr variabel ist.

Je nachdem welche Aufgabe das Netz oder Deep Learning Modell dann erledigen soll muss für das Training noch ein sogenanntes Label mitgeliefert werden. Im Falle einer kategorialen Zuordnung (“Klassifikation”) beinhaltet dieses Label eben die Kategorie, in die das Beispielbild fällt. Bei anderen Aufgaben wie zum Beispiel der Vorhersage von numerischen Werten (“Regression”) wäre das Label eben der Wert.

Die Labels sind insofern absolut fundamental, da sie als Kontrolle dienen, welche Aufgabe das neuronale Netz lernt. Sind die Labels falsch oder es gibt nicht genügend Daten mit Labels, kann das Netzwerk entsprechend nicht oder sehr schlecht das Konzept verinnerlichen – Details dazu im Abschnitt “Probleme und Nachteile”.

Die Initialisierung: Mit welchen Gewichten startet man?

Zu Beginn eines Trainings existieren die Knoten der verschiedenen Layer, in welche das (Zwischen-)Ergebnis jedes Wertes eingetragen werden. Dazwischen steht der Knoten mit seinem Gewicht. Während jeder Knoten bei jedem Input neu gefüllt wird, sind die Gewichte das Ergebnis des Trainings für das gesamte Netzwerk. 

Folglich muss man sich bei Initialisierung auch überlegen, wie man die Gewichte festlegt. Das Problem ist, werden die Gewichte ungünstig initialisiert kann dies dazu führen, dass alle Hidden Layer das gleiche lernen oder sehr langsam lernen. Während die genaue Initialisierung nun eine Wissenschaft für sich ist, ist die allgemeine Herangehensweise, dass die Gewichte zufällig, aber gleichverteilt und mit einem Mittelwert von 0, also sowohl positive als auch negative Werte, verteilt werden.

Das Training: Forward- und Backpropagation der Information

Das Herzstück von künstlichen neuronalen Netzwerken ist das Training. Hierzu wird der Input genutzt, um iterativ die Gewichte der einzelnen Kanten zu definieren. Das neuronale Netz versucht also die Gewichte so zu definieren, um in den Endknoten (Output) das korrekte Label zu erreichen. Das Spielen der Information durch das Netz zum Output-Layer nennt sich “Forward Propagation”, also das Schleusen der Signale zum Ende hin. 

Genauer definiert nutzt das KNN den Input (zum Beispiel Grauwert 100 an Pixelposition 222), multipliziert ihn mit dem Gewicht der Kante (zum Beispiel 0.5) um das Ergebnis (Wert 50) im Knoten des Hidden Layers zu speichern. Diesen Prozess durchläuft das Netz für jeden Inputwert für jede Kante für jeden Knoten für jedes Hidden und Outputlayer.

Im Outputlayer angekommen definiert die sogenannte Activation Function (Deutsch Aktivierungsfunktion), ob das künstliche Netz feuert oder nicht – identisch mit dem neurobiologischen Vorbild. Es gibt eine hohe Bandbreite an Aktivierungsfunktionen, welche alle unterschiedliche Stärken und Schwächen haben. Somit haben wir das Ergebnis – in unserem Bild-Beispiel die Antwort “Hund” oder “Katze”.

Doch damit hat das Netz bisher erst den Input klassifiziert, noch nicht gelernt, also die Gewichte angepasst. Dazu nutzt man die Antwort des Netzes und vergleicht sie mit dem vorher definierten Label um gegebenenfalls einen Fehler des Netzes festzustellen. Dieser Fehler (“error”) wird dann rückwärts durch das Netz propagiert (“back propagation”) um daraus zu lernen.

Die ausführliche Definition von back propagation ist etwas komplexer und verlangt eigentlich nach einem eigenen Artikel, aber einfach gesagt wird dabei berechnet wie sich die Gewichte eigentlich hätten verhalten sollen und dementsprechend in eine Richtung korrigiert, die ein besseres Ergebnis erwarten lassen (gradient descent). Darauf basierend wird jedes betroffene Gewicht korrigiert.

Dieser Vorgang – Input einspeisen, Fehler berechnen und Gewichte korrigieren – wird solange durchgeführt, bis ein Abbruchkriterium erreicht wird. Das Abbruchkriterium ist meist durch eine bestimmten Anzahl an Epochen definiert, wobei eine Epoche beendet ist, wenn alle Trainings-Stimuli einmal angewandt wurden. Dann ist das Training beendet und das künstliche neuronale Netz trainiert.

Der Einsatz des künstlichen neuronalen Netzwerks: Vorhersagen auf Basis des Modells

Ist der Trainingsprozess durchgeführt und das Netz hat alle Gewichte einem (auf den Trainingsdaten) optimalen Wert zugeführt, kann es eingesetzt werden. Vorher zur Seite gelegte Daten (Test-Set) werden dem Deep Learning Modell zugeführt und die Ergebnisse validiert. Genügt die Performanz, also sind die Vorhersagen zu Genüge korrekt, kann das Netz auf neuen, unbekannten Input angewandt werden. Dazu muss eine Data Pipeline aufgebaut werden, die neuen Input zum neuronalen Netz transportiert und die Prädiktion zurück liefert.

Die Bandbreite an Einsatzzwecken von KNNs: Wozu kann man neuronale Netze einsetzen?

Im Prinzip gibt es drei Hauptanwendungsgebiete von künstlichen neuronalen Netzen und Deep Learning. Dabei ist eine der Anwendung die häufigste: Die Classification, auf Deutsch “Klassifikation”, also das Einordnen von einem Input in eine Kategorie. Dennoch möchten wir gerne alle drei Aufgaben kurz darstellen, 

Classification (Supervised Machine Learning)

Klassifikation ist eine Art von Machine Learning Algorithmus, die Input in eine Kategorie einordnet. Dabei kommt die Classification aus der Kategorie “Supervised Learning”, also dem überwachten Lernen. Supervised Learning bezeichnet Algorithmen, die anhand von Beispielen lernen, um später dieses Modell auf neuen Input anzuwenden. 

Die Beispiele die wir mehrfach angeführt haben (Handschrifterkennung, Hund / Katze) sind eben aus der Kategorie Classification. Mittels der bereitgestellten Trainingsdaten (Bilder von Zahlen oder Hunden und Katzen) und dazugehöriger Labels (der Wert der Zahl, die Kategorie des Tiers) kann das Netzwerk entsprechend lernen.

Es gibt eine ganze Bandbreite an Beispielen für die Anwendung von Classifiern. Von der Gesichtserkennung über die Erkennung von Betrugsversuchen im Banking bis zur Abschätzung ob ein Kunde noch länger Kunde bleiben wird fallen viele Ideen in die Vorhersage von Kategorien. Für Details zu Anwendungsfällen, siehe der Abschnitt “Beispiele und Anwendungsfälle”.

Regression (Supervised Machine Learning)

Ein weiteres Beispiel aus der Kategorie des Überwachten Lernens sind Anwendungsfälle aus dem Bereich der Regression. Als Regression bezeichnet man generell Prädiktion von Werten. Da auch Regression in die Kategorie Supervised Learning fällt, brauchen neuronale Netze in dieser Kategorie auch in diesem Fall entsprechende Label.

Ein Label im Bereich der Regression entspricht nicht einer Kategorie wie in der Klassifikation, sondern vielmehr einem kontinuierlichen Wert. Ein sehr bekanntes Beispiel ist die Vorhersage von Umsatzzahlen in einem Unternehmen. Man nutzt Features wie Anzahl Bestellungen, Lagerbestände, Werbeinvest und anderes, um anhand der historischen Saleszahlen ein Deep Learning Modell zu trainieren.

Mit einem solchen Regressionsmodell lassen sich dann entsprechend zukünftige Zahlen vorhersagen. Als Beispiele gibt es Saleszahlen, Rücksendungen, Temperatur, optimaler Preis und vieles mehr. Ein ausführliches Beispiel ist im unteren Abschnitt der Beispiele von Deep Learning Use Cases zu finden.

Clustering (Unsupervised Machine Learning)

Als dritte Hauptkategorie des Einsatzes von Deep Learning und künstlichen neuronalen Netzen gilt das Clustering. Clustering bezeichnet das Erkennen von Gruppen von Datenpunkten anhand ähnlicher Merkmale. Im Gegensatz zur Classification und Regression sind Clustering Algorithmen sogenannte Unsupervised Machine Learning Algorithmen, zu Deutsch unüberwachtes Lernen, und brauchen keine Vorinformation über das Ergebnis. Dies liegt daran, dass Clustering keine Prädiktion erstellt, sondern rein die Information innerhalb eines Datensatzes nutzt, um Muster zu erkennen.

Dabei sei gesagt, dass es eher unüblich ist, ein künstliches neuronales Netz für Clustering einzusetzen. Das heisst nicht, dass es nicht möglich ist: Autoencoder oder Self-Organizing Maps werden oft eingesetzt, um Informationen über den Aufbau und die Struktur von Daten selbst zu erlangen. 


Welche Arten von neuronalen Netzen gibt es?

https://i.stack.imgur.com/LgmYv.png

Es gibt inzwischen eine ganze Reihe an Klassen von neuronalen Netzen. Dabei hat jede Art gewisse Vor- und Nachteile und teilweise werden bestimmte Klassen nur auf bestimmte Probleme angewandt. Wir stellen einige Beispiele vor:

  • Perceptron: Das einfachste neuronaler Netze, das nur aus einem Input-Layer, einer Aktivierungsfunktion und dem entsprechenden Output besteht. Hidden-Layer sucht man in dieser Version vergebens.
  • Feedforward artificial neural network (FFNN): Die nächste Stufe, bei der Information zwar nur in eine Richtung bewegt wird, aber mittels einem Hidden Layer auch Teilkonzepte repräsentiert werden können.
  • Deep Learning (DL): Neuronale Netze die mehr als ein Hidden Layer haben. Diese Topologie erlaubt es dem Netzwerk, auch Zwischenkonzepte (wie zum Beispiel Kanten oder Farbverteilungen) zu lernen.
  • Recurrent neural networks (RNNs, z.B. Long short term memory networks): Rekurrente neuronale Netze beachten im Vergleich zu normalen feedforward Netzen auch temporale Sequenzen, indem sie sich quasi gewisse Information “zwischenspeichern”. RNNs gelten als eine der stärksten Art von neuronalen Netzen, vor allem in Bereichen der Time Series Analysen (z.B. Vorhersage von Aktienentwicklung) und der Analyse von Sprache.
  • Symmetrically connected neural networks: Diese Netze sind aufgebaut wie RNNs, aber haben eine symmetrische Topologie sowohl in Anordnung als auch der Zuweisung von Gewichten.
  • Convoluted neural networks (CNN): Die “Convolutions” eines CNNs sind ein neuer Baustein in der Topologie von Netzwerken. Sie verarbeiten Informationen nicht linear, sondern betrachten quasi regionale Information gemeinsam (z.B. bei eine Bild die umliegenden Pixel). Dies führt zu massiven besseren Erkennungsraten in der Bildverarbeitung, aber ebenso zu schnelleren und effizienteren Training als klassische Netze.
  • Radial basis function network (RBFN): RBFNs sind einfache feedforward networks, die als Aktivierungsfunktion die Distanz zwischen den Knoten mit einbeziehen.
  • Self organizing neural network: Diese Art von neural Netzwerken erkennt wird vor allem zur Erkennung von Strukturen innerhalb des Datensatzes eingesetzt. Es findet Anwendung im Unsupervised Learning zur Dimensionsreduktion.
  • Modular neural networks: Modulare künstliche Netze kombinieren mehrere Arten von neuronalen Netzwerken um Teilaufgaben oder Teileingaben von unterschiedlichen Topologien und Algorithmen erledigen zu lassen.
  • Generative adversarial networks (GAN): GANs sind eine noch junge Generation von neuronalen Netzen, die jedoch rapiden Wachstum erfahren. Diese Art von KNNs generiert neue Daten aus den zu lernenden Daten, indem es zwei Netze kombiniert, bei denen eines Daten generiert und das andere das Ergebnis überprüft. GANs sind die Basis für die Generation von neuem Bildmaterial wie zum Beispiel Deep Fakes.

Probleme und Nachteile von künstlichen neuronalen Netzen

Lokale Optima: Wann ist das neuronale Netz fertig trainiert?

Als eines der Hauptprobleme im Training von neuronalen Netzen wird die Frage gesehen, wann das Training beendet werden kann. Da ein neuronales Netz versucht das Minimum an Fehlern für die Trainingsdaten zu finden, gibt es die Möglichkeit, dass es zwar ein Minimum findet, dies aber ein sogenanntes “lokales Minimum” ist. Das heisst, falls die Gewichte anders initialisiert oder angepasst worden wären, gäbe es potentiell eine andere Lösung für das Modell, welches noch optimaler das Problem löst – das sogenannte globale Optimum.

Man versucht diesem Problem sehr stark mit Algorithmen, Wiederholung des Trainings und anderen Methoden entgegen zu wirken, aber vieles davon führt meistens zu einer verlängerten Trainingsdauer und höherem Aufwand. Zudem kann man nie sicher sein, ob man final das globale Optimum erreicht hat oder nur ein besseres lokales Minimum. Daher ist die Frage, wann das neuronale Netz fertig trainiert ist und man einen Abbruch des Trainings durchführen kann eine offene.

Overfitting: Perfekte Ergebnisse im Training, schlechte in der Realität

Als Overfitting wird das Problem bezeichnet, dass ein Deep Learning Modell nach dem Training perfekt die Daten vorhersagen kann, aber dann bei der Konfrontation mit den Testdaten oder neuen Daten versagt. Dieses Problem liegt meist vor allem an einer mangelnden Varianz und/oder mangelnden Informationsgehalt in den Trainingsdaten. Entgegen gewirkt werden kann durch eine geringere Komplexität des Modells, ein besseres Abbruchkriterium oder bessere Daten.

Initialisierung der Gewichte: Mehr als nur ein Startpunkt

Wie wir bereits im Abschnitt des Algorithmus angerissen haben, ist die Frage wie die Gewichte im Netz initialisiert werden von zentraler Bedeutung. Gibt es innerhalb der Erstverteilung ein sehr starkes Ungleichgewicht oder noch schlimmer ein Muster, wirkt sich das selbstverständlich auf den gesamten Trainingsprozess aus. Denn durch diese Gewichte werden die ersten Durchläufe dominiert und somit ist auch die “Richtung” des Modells mit beeinflusst. 

Datenqualität: Schlechte Trainingsdaten oder Labels führen zu schlechten Ergebnissen

Wie bei Machine Learning üblich ist es auch im Falle von neuronalen Netzen bzw. Deep Learning der Fall, dass die Leistung eines Modells mit der Datenqualität steht oder fällt. Sind die Trainingsdaten sehr imbalanziert, haben schlechte oder falsche Labels versehen bekommen oder repräsentieren einfach nicht die realen Faktoren für ein Ergebnis, kann auch der Algorithmus nur schwer großes leisten. Daher ist auch im Falle von KNNs die Datenqualität von absolut zentraler Bedeutung.

Ein Sonderfall ist ein Bias, der sich bereits in den Daten abzeichnet. Als Beispiel seien hier die Vorkomnisse bei großen Unternehmen wie Amazon genannt, die versuchten, neuronale Netze einzusetzen, um Bewerber zu evaluieren. Da die Trainingsdaten auf ihren bisherigen Mitarbeitern basierten, diskriminierten die Deep Learning Algorithmen systematisch Frauen und andere Hautfarben – da sie dies als Faktor in den Ausgangsdaten identifizierten.

Bias ist ein großes Problem, das man aktiv beachten und lösen muss, damit man nicht durch die Datengrundlage bereits ausschließt, ein neutral agierendes Modell zu erstellen.

Anforderungen an Infrastruktur und Ressourcen

Abhängig von der Topologie, der Größe der Datenmengen (Big Data) und Anzahl der Features kann ein neuronales Netzwerk sehr schnell sehr ressourcenhungrig werden. Daher gilt es hierbei etwas genauer zu planen, welcher Input relevant sein kann und wie der Aufbau des Deep Learning Modells durchgeführt werden soll.

Deep Learning ist eine Blackbox

Wie wir hoffentlich in den vorherigen Kapiteln ausreichend darstellen konnten sind neuronale Netze, insbesondere Deep Learning, hochkomplexe Konstrukte mit einer unglaublich hohen Anzahl an Beteiligten (Layer, Kanten, Gewichte). Durch diese Multidimensionalität entsteht auch das Problem, dass man ab einer gewissen Größe nicht mehr nachvollziehen kann, weshalb ein KNN reagiert wie es reagiert. 

Dieses Problem nennt sich “Blackbox”, also eine Kiste, in der man Input steckt und aus der Output kommt, aber man nicht weiß, was dazwischen passiert. Die Blackbox ist mitunter auch eine der größten Kritiken an neuronalen Netzen und Deep Learning. Inzwischen gibt es allerdings auch Initiativen, die versuchen trotz der Komplexität die Blackbox aufzulösen – wir sind gespannt, wie erfolgreich diese sind.

Häufige Fragen zu künstlichen neuronalen Netzwerken und Deep Learning

Neuronale Netzwerke vs Deep Learning: Was ist der Unterschied?

Wie erläutert, ist Deep Learning ein Begriff für künstliche neuronale Netze die aus mehreren Hidden Layern bestehen. Dass dabei oft Deep Learning als eigenes Buzzword auftaucht hat den Hintergrund, dass mehrschichtige neuronale Netze nicht nur Teilaspekte des Inputs lernen können, sondern auch Zwischenrepräsentationen lernen können. Dies ist ein erheblicher Vorteil gegenüber einschichtigen Netzen.

Der Unterschied von neuronalen Netzen und Machine Learning

Oft werden neuronale Netze als Alternative zu Machine Learning positioniert. Dabei gibt es bei der Verordnung dieser beiden Begriffe eine klare Hierarchie: Künstliche Intelligenz ist das generelle Feld, Machine Learning eine Unterart von Anwendungen. Maschinelles Lernen hingegen hat wiederum viele Methoden, wovon neuronale Netze neben zum Beispiel Entscheidungsbäumen, Time Series Analysis, Regression eine von vielen Ist. Deep Learning hingegen ist, wie vorhergehend erläutert, die Bezeichnung für neuronale Netze mit mehreren hidden Layern.

Vorteile von neuronalen Netzen und Deep Learning: Wo, wann und warum sollte man neuronale Netze/ Deep Learning einsetzen?

  • Feature Selection: Bei Deep Learning muss nach dem Feature Engineering keine Feature Selection durchgeführt werden, da neuronale Netze die wichtigkeit von verschiedenen Features selbst bestimmt.
  • Komplexe Beziehungen: KNNs können sehr komplexe Verhältnisse innerhalb der Daten erkennen und modellieren; auch wenn diese nicht linear sind.
  • Generalisierung: Deep Learning lernt das abstrakte Konzept, nicht eine fixe Lösung für ein bestimmtes Problem. Somit lässt sich das gelernte generalisieren und auf neuen Input anwenden.
  • Geringere Anforderungen an die Daten: Neuronale Netze können besser als andere Machine Learning Technologien mit schwierig verteilten, invarianten oder inkonsistenten Daten umgehen.

Was ist die beste Programmiersprache für neuronale Netze?

Üblicherweise wird python als Hauptprogrammiersprache eingesetzt. Selbstverständlich sind auch Sprachen wie R oder Java dazu fähig, aber rein von der Varianz und Aktualität der Pakete sowie der kohärenten Option das Modell danach zu operationalisieren, gewinnt python.

Beispiele und Anwendungsfälle neuronaler Netze & Deep Learning

Inzwischen gibt es hunderte von Anwendungsfällen im Bereich Machine Learning und viele davon auch für den Einsatz von neuronalen Netzen und Deep Learning. Hier möchten wir fünf Beispiele darstellen, die in ihrer Art und Weise nicht ohne KNNs / DL existieren würden.

Face recognition: Gesichtserkennung als Beispiel für Deep Learning

In Science Fiction war es schon lange möglich: Die Erkennung von Menschen durch Maschinen. Doch vor neuronalen Netzen konnten dies die Algorithmen nicht leisten. Inzwischen sind solche Systeme jedoch im Einsatz: Egal ob zur Entsperrung von Mobiltelefonen oder bei China’s neuem Social Scoring System, das Gesicht ist der beste äußerliche Identifikator von uns Menschen.

Stock prediction: Leider noch nicht die Gelddruckmaschine die man sich wünscht

Wenn eine Branche kontinuierlich und tief in die Anwendung von Data Science und Machine Learning investiert, dann ist es die Finanzbranche. Der Grund ist auch offensichtlich: Wenn man die Entwicklung der Aktienmärkte vorhersagen könnte, wüsste man genau, wie man investieren muss. Das besondere an diesem Use Case ist, dass hierbei oft eine immens hohe Bandbreite an verschiedenen Datenquellen angebunden werden müssen, um die “Weltmarktentwicklung” zumindest ansatzweise abzudecken. Dies stellt eine besondere Herausforderung für das Data Engineering dar.

Der Grund weshalb der Einsatz von Deep Learning in der Finanzbranche noch nicht einer Gelddruckmaschine gleich kommt ist jedoch ein anderer. Die Märkte werden von sehr vielen Faktoren beeinflusst und sind ein Wechselspiel von kleinen und großen Anlegern, die sich oft auch entgegen jeder wiederholbarer Logik verhalten. Somit ist es selbst für sehr anspruchsvolle neuronale Netze noch nicht möglich, diese Entwicklungen in einem abstrakten Konzept zu modellieren.

Speech recognition: Endlich verstehen die Maschinen uns

Wer zur Jahrtausendwende versucht hat die aufkommenden Spracherkennungssoftwares zu nutzen, wird viel geflucht haben. Sie waren sehr fehleranfällig, man musste sie anschreien und auf Deutsch gab es kaum etwas brauchbares. Doch das hat sich durch Deep Learning geändert. Inzwischen befindet sich auf sehr vielen digitalen Produkten eine Spracherkennung: Sprachassistenten wie Alexa, automatische Speech-to-Text bei Google Sheets oder auch die Suche mittels Spracheingabe wie im e-Commerce-Bereich breitet sich immer weiter aus. Ohne neuronale Netze mit mehreren Abstraktionsebenen wäre dies nicht möglich.

Product Classification: Welches Kleid passt zu mir?

Foto machen – ähnliche Produkte finden. Dies ist nur einer von sehr vielen Anwendungsfällen für den Einsatz von Deep Learning in der Produktklassifizierung. Dabei kann das KNN darauf trainiert werden, dass es Farben, Muster oder auch Art des Kleidungsstücks erkennt und mit der Produktdatenbank im Unternehmen vergleicht. Somit rückt der Geschmack der Kunden noch mehr ins Zentrum und es wird immer einfacher, für sich passende Artikel zu finden.

Deep Fakes: Wird Deep Learning zu einer Gefahr für die Gesellschaft?

BILD

Ein ernsteres Thema als gute Produktempfehlungen sind die inzwischen aufkommenden Deep Fakes. Der Begriff setzt sich zusammen aus dem Begriff “Deep Learning” und “Fake” und hat zur Basis Generative Adversal Networks – GANs. Deep Learning basierte GANs können anhand von Trainingsmaterial komplett neue Bilder oder Videos kreieren. Dass dies vor allem gegenüber leichtgläubigen Mitmenschen sehr schnell gefährlich werden kann ist offensichtlich. Botschaften von Verwandten, Prominenten oder sogar der Bundeskanzlerin können nach Belieben erstellt und verbreitet werden. Deep Fakes werden noch sehr spürbare Auswirkungen auf die Gesellschaft haben, sind aber bereits im Fokus von Sicherheitsmaßnahmen und Detektionsalgorithmen.

Weitere Informationen und Ressourcen zu künstlichen neuronalen Netzen

Ein neuronales Netz in Aktion sehen

Wer nun Lust hat, neuronale Netze in Aktion zu sehen, aber nicht gleich programmieren lernen möchte, für den gibt es den Tensorflow Playground. Mittels Web-Interface können hier viele Parameter (Knoten / Neuronen, Layer, Inputs, etc) variiert werden und dann ein Deep Learning Modell trainiert werden. Sehr schön ist auch die Darstellung der gewichteten Kanten visualisiert um zu sehen, welcher Knoten wie viel Einfluss auf nachfolgende Layer hat. Die Website gibtes hier: http://playground.tensorflow.org/

Video-Tutorial zur Programmierung von künstlichen neuronalen Netzen in python

Wer nun Lust hat, ein neuronales Netz mittels python umzusetzen, dem empfehlen wir folgendes sehr einfach verständliches Video-Tutorial “Create a Simple Neural Network in Python from Scratch”: 

Video-Tutorial zur Programmierung von künstlichen neuronalen Netzen in R

Wer ein Deep Learning Modell in R erstellen möchte, dem hilft das Video-Tutorial “Deep Learning with Keras & TensorFlow in R | Multilayer Perceptron for Multiclass Classification”:

Buchempfehlungen als Deep Dive zu künstlichen neuronalen Netzen

Wenn nun jemand das Bedürfnis hat, noch tiefer in das Thema künstliche neuronale Netze einzusteigen, für den gibt es drei Ansatzpunkte:

Englisch, kostenlos, Web-Ressource

Unter neuralnetworksanddeeplearning.com ist ein kostenloses Onlinebuch zu finden, das sehr ausführlich und Mathematik-lastig auf sowohl neuronale Netzwerke als auch Deep Learning als Konzepte eingeht. 

Englisch, nicht günstig, theoretisch:

Das Buch “Neural Networks and Deep Learning: A Textbook” ist eher ein mathematisches Nachschlagewerk als eine verständliche Anleitung zum Thema Deep Learning, lohnt sich aber für diejenigen, die wirklich die Algorithmen im Detail verstehen möchten.

Deutsch, günstig, praktisch:

Unsere Empfehlung ist jedoch, wie man bereits am Artikel erkennen kann, mit einer eher praktischen Version zu beginnen. Das Buch “Neuronale Netze selbst programmieren: Ein verständlicher Einstieg mit Python” erlaubt genau dies: einen einfachen, verständlichen und günstigen Einstieg in das Thema Neuronale Netze und Deep Learning.

Veröffentlicht am

CRISP DM: Das Modell einfach erklärt (mit Infografik)

Infografik CRISP DM

CRISP-DM steht für CRoss Industry Standard Process for Data Mining und ist ein standardisierter Prozess zur Durchführung von Data Mining. Er besteht aus sechs Phasen von dem Verstehen des Anwendungsfalls bis zur Operationalisierung des (Machine Learning basierten) Datenprodukts. In diesem Artikel möchten wir erklären wie der Prozess definiert ist, welche Rollen beteiligt sind und anhand eines Beispiels aufzeigen, wie man CRISP DM im Unternehmen einsetzen kann.

Inhaltsverzeichnis

Was ist das CRISP DM Modell?

CRISP DM steht für CRoss Industry Standard Process for Data Mining, auf Deutsch industrieübergreifender Standardprozess für Data Mining. Das Modell wurde entwickelt, um Data Mining in einzelne, einfach zu definierende Schritte zu unterteilen. Dies erlaubt es, klar zu strukturieren welche Aufgaben zu erledigen sind und wie man ein Projekt in Arbeitspakete unterteilen kann. 

Genauer besteht CRISP-DM aus den Phasen “Business Understanding”, “Data Understanding”, “Data Preparation”, “Modeling”, “Evaluation” und “Deployment”. Folglich geht es darum, vom Anwendungsfall aus über die Daten den Use Case zu verstehen, die Daten entsprechend zu verarbeiten und dann zu prüfen, ob die Lösung operationalisiert werden kann.

Geschichte von CRISP DM

CRISP DM wurde in den 90iger Jahren als step-by-step Data Mining Guide entwickelt und präsentiert. Eines der Unternehmen das dieses Modell sehr fokussiert einsetzt ist IBM, welche in 2015 auch die Nachfolgemethode ASUM-DM (Analytics Solutions Unified Method for Data Mining) vorgestellt haben, der jedoch nicht an den Erfolg des Vorgängermodells anknüpfen kann..

In den letzten 25 Jahren hat sich CRISP-DM als Standard in vielen Unternehmen etabliert, die Data Mining betreiben. Dies geht so weit, dass es in mehreren Umfragen als führende Methode im Bereich Data Mining definiert wurde. Die Unternehmen die formell nicht CRISP-DM einsetzen, nutzen meist eine sehr ähnliche Variante die ähnlichen Schritten folgt, oft auch einfach als Data Science Prozess definiert.

Definition der sechs Phasen des CRISP DM Modells

Das CRISP DM Modell ist in sechs Phasen unterteilt, das wir im Folgenden näher darstellen:

Business Understanding: Verstehen des Anwendungsfalls

CRISP DM: Schritt eins - Business Understanding
CRISP DM: Schritt eins – Business Understanding

Am Anfang jedes Data Mining Projekts steht das Verstehen des Anwendungsfalls. Genauer gilt es in der Phase “Business Understanding” nicht nur den Use Case zu verstehen, sondern auch klar zu definieren auf welches Ziel hingearbeitet wird und welche Abnahmekriterien am Ende der Evaluation stehen.

Dieser Schritt in CRISP-DM wird oft unterschätzt und ist dennoch sehr zentral für den Erfolg jedes Projekts. Nur wenn ganz klar ist, wodurch Mehrwert für die internen Stakeholders generiert wird, arbeitet man nicht am Ziel vorbei. Im Optimalfall resultiert aus dieser strukturierten Vorgehensweise auch bereits in diesem Schritt ein Projekt- und Zeitplan. Dadurch ist eine enge Abstimmung zwischen technischer Fachabteilung von Data Scientists, Data Analysts und Data Engineers mit den Business Stakeholdern möglich.

Data Understanding: Explorative Datenanalyse

CRISP DM: Schritt zwei - Data Understanding
CRISP DM: Schritt zwei – Data Understanding

Als ersten Schritt auf dem Weg zur Erkenntnis werden die vorliegenden Daten explorativ auf Verarbeitbarkeit, Inhalt und Qualität untersucht. Da Data Mining sich im Generellen immer auf vorliegende Daten bezieht, sollten vor diesem Schritt bereits alle Data Engineering Arbeiten abgeschlossen sein und die Daten einfach einlesbar vorliegen.

Ziel der Phase “Data Understanding” ist es, einerseits die technische Machbarkeit zu prüfen, andererseits bereits hier einen guten Überblick über mögliche Einsatzzwecke der Daten im Bezug auf den Anwendungsfall der durch “Business Understanding” definiert wurde zu bekommen. 

Data Preparation: Vorbereitung der Daten

CRISP DM: Schritt drei - Data Preparation
CRISP DM: Schritt drei – Data Preparation

Die Dara Preparation umfasst im wesentlichen drei Teile: Auswahl und Zusammenführung der Daten, Data Cleansing und Feature Engineering. Alle drei Teile basieren auf den Erkenntnissen der beiden vorhergehenden Phasen und sind im Prinzip die technische Umsetzung der vorher festgelegten Theorie.

Bei der Auswahl und Konsolidierung der Datenquellen gilt es, entsprechend dem Data Understanding die vorliegenden Datenquellen sinnvoll zusammenzuführen. Dies bildet die Basis für die folgenden Schritte des Data Cleansing und Feature Engineering.

Im Data Cleansing ist das Ziel, die Daten von niedriger Datenqualität zu befreien. Vor allem Ausreisser, fehlende Daten und falsche Daten beeinflussen die Qualität des Modelings stark. Um Data Cleansing erfolgreich durchzuführen benötigt es wiederum Input vom Business, damit klar ist, welche Inhalte korrekt und welche zu korrigieren sind.

Als letzter Schritt in der Data Preparation wird das Feature Engineering durchgeführt. Hierbei wird aus den vorbereiteten Daten bezeichnende Variablen konstruiert, die möglichst nah an dem zu betrachtenden Anwendungsfall sind. Diese konstruierten Variablen basieren auf den Erfahrungen, die in der Phase “Data Understanding” getroffen wurden und werden im nächsten Schritt, dem Modeling, eingesetzt.

Modeling: Erstellung des Modells

CRISP DM: Schritt vier - Algorithmenerstellung und Modellierung
CRISP DM: Schritt vier – Algorithmenerstellung und Modellierung

Die Modellierung – also eine statistische Gleichung für die vorhandenen Daten aufstellen – ist der Kern des CRISP DM Prozesses. Meist werden in diesem Schritt Methoden aus der Bereich des maschinellen Lernens (z.B. Supervised Learning) eingesetzt, um ein prädiktives Modell auf Basis der historischen Daten zu generieren. Dies wird vor allem mit zunehmenden Datenmengen die präferierte Herangehensweise. Aber auch eher diagnostische Modelle wie Interaktionsanalysen oder ANOVAs fallen in diese Kategorie.

Während dem Modeling werden also die in “Data Preparation” vorbereiteten Features verarbeitet, um schlussendlich Aussagen über gefundene Muster in den Daten zu treffen. Je nach Modell folgt diese Methodik dem Train-Test-Vorgehen, so dass die Daten in Trainings- und Testdatensätze geteilt werden, um den Erfolg des Modells iterativ zu verbessern. Hierbei findet die sogenannte Feature Selection statt, also die Auswahl von den Attributen die im vorhergehenden Schritt vorbereitet wurden, um eine möglichst hohe Prädiktionsrate zu erreichen.

Evaluation: Auswertung des Erfolgs

CRISP DM: Schritt fünf - Evaluation des Erfolgs
CRISP DM: Schritt fünf – Evaluation des Erfolgs

Während die letzten drei Schritte eher technischer Natur sind, ist in der Evaluationsphase wieder eine enge Zusammenarbeit zwischen den Data Scientists und den Business Stakeholdern gefragt. Nachdem das Modell erstellt und optimiert wurde, gilt es die Ergebnisse mit den Stakeholdern zu spiegeln. 

Während die Evaluation des Modells selbst meist auf der Vorhersagegenauigkeit beruht, ist die Überprüfung des Erfolgs des Projekts meist weitreichender. Der Gesamtprozess wird nochmals analysiert, von Datenverfügbarkeit über Datenqualität bis zum Erfolg der Modellierung und der Diskussion der Aussagen, die sich davon ableiten lassen.

Schlussendlich gilt es in der Phase “Evaluation” zu entscheiden ob ein Deployment – also die Operationalisierung des Modells im Regelbetrieb – durchgeführt wird.

Deployment: Operationalisierung des Modells

CRISP DM: Schritt sechs - Operationalisierung des Modells
CRISP DM: Schritt sechs – Operationalisierung des Modells

Die letzte, finale Phase im CRISP-DM Prozess ist Operationalisierung des Modells, auch Deployment genannt. Hierzu wird das vorher trainierte oder erstellte Modell in die IT-Infrastruktur integriert, so dass es durchgehend in Betrieb ist. 

Was dabei nicht vergessen werden darf ist die kontinuierliche Überwachung einerseits der Verfügbarkeit, andererseits der Performanz des Modells. Umso mehr Modelle im Betrieb sind, umso standardisierter werden diese Prozesse etabliert sein, was den letzten Schritt zunehmend einfacher gestaltet.

Welche Rollen sind am CRISP DM Prozess beteiligt?

Business Stakeholder / Domänenexperte

Business Stakeholder, also Mitarbeitende in der Domäne (zum Beispiel Fachabteilung, Produktmanager, Sales, Logistik, etc), sind vor allem in den Phasen Business Understanding und Evaluation beteiligt. Aber auch in Data Understanding und Data Preparation können sie durch ihr Fachwissen wertvolle Hinweise an die Fachexperten der Datenabteilung beisteuern.

Data Analyst

Datenanalysten bilden das Bindeglied zwischen Datenexperten und dem Business. Folglich sind sie vor allem am Anfang, im Business und Data Understanding beteiligt, unterstützen allerdings auch bei der Data Preparation und der Evaluation. Ihre Aufgabe ist die Aufbereitung und deskriptive Auswertung von Daten.

Data Engineer

Data Engineers extrahieren Daten, konsolidieren Datensätze und stellen sie zur weiteren Verarbeitung bereit. Daher sind sie am prominentesten vor dem Start des CRISP DM Prozesses indem sie die Infrastruktur und Daten bereit stellen, dann aber auch im Prozess selbst in der Phase Data Preparation. Kommt es zum Deployment, sind auch hier oft Data Engineers durch ihr Fachwissen starke Partner.

Data Scientist

Der Data Scientist ist in seiner Rolle im Prinzip in jeder der sechs Phasen des CRISP DM Prozesses beteiligt. Vor allem als Generalist arbeitet er vom Business Understanding über die Datenvorbereitung, seinem Kernbereich der Modellierung bis hin zum Deployment. Je nach Spezialisierung konzentrieren sich manche Data Scientists dabei eher auf businesszentrierte Arbeit, während andere ihre Stärken in der Datenanalyse und -modellierung sehen.

Machine Learning Engineer

Eine sehr starke Spezialisierung des Data Scientists ist der ML Engineer, der sich auf die Erstellung, das Training und die Optimierung von Machine Learning Modellen konzentriert. Daher ist seine Beteiligung vor allem im Modeling, oft aber auch in der Vorbereitung der Daten zu finden.

DevOps / MLOps / DataOps

Die klassische DevOps, neuer auch Abwandlungen im Sinne von MLOps oder Data Ops finden sich dann vor allem bei allen Aufgaben rund um das Deployment. Die Bereitstellung von Infrastruktur, einfügen in die unternehmensweite IT-Infrastruktur und andere Lösungen kommen aus der Feder dieser Experten.

Beispiel für den CRISP-DM Prozess im Einsatz

Ein Mann der eine Stromleitung repariert
Das CRISP DM Modell anhand von Predictive Maintenance erklärt

Ein einfaches Beispiel für den Einsatz des CRISP-DM Prozess möchten wir hier anhand von Predictive Maintenance, also der Vorhersage von Wartung bei Produktionsmaschinen, darstellen. Im Business Understanding muss hier klar der Anwendungsfall definiert werden: Um welche Maschinen geht es, welche Daten gibt es dazu, ist das Ziel Wartungswarnung oder erwartete Zeit bis zur Warnung (Klassifikation vs. Regression) und welche Ziele müssen erfüllt werden, damit ein Erfolg des Projekts gesehen wird.

Im Data Understanding ziehen dann Data Engineer, Data Analyst und Data Scientist die Datenquellen zusammen um zu verstehen welche Information vorhanden ist, um sie weiter zu verarbeiten. Welche Inhalte können extrahiert werden um eine Modellierung durchzuführen? Diese Frage gilt es an der Schnittstelle von Business Understanding und Data Preparation zu klären. Datenquellen im Bezug auf unser Beispiel wären die generelle Laufzeit, frühere Wartungsdaten, Sensordaten an relevanten Maschinenkomponenten, Produktionspläne und ähnliches.

Die Vorbereitung der Daten hat zum Ziel, klare Features aus den Daten zu extrahieren. Die Laufzeit in Stunden, die Wärmeentwicklung an bestimmten Komponenten der Maschine, die Belastung der Maschine, die zuständigen Mitarbeiter, das Alter der Maschine und vieles mehr kann einen Einfluss auf die Vorhersage der Wartungs haben.

Diese Features werden im Modeling genutzt, um eine Vorhersage zu erzielen. Predictive Maintenance nutzt üblicherweise KI Algorithmen aus der Kategorie Supervised Learning, im speziellen Klassifikation oder Regression. Um in unserem Beispiel zu bleiben, nehmen wir nun einen Random Forest als Classifier, ob die Maschine im kommenden Monat kaputt gehen wird oder nicht.

In der Evaluation kommen nun die am Projekt beteiligten zusammen und evaluieren die Ergebnisse. Hat der Algorithmus brauchbare Ergebnisse produziert, kann die notwendige Wartung also vorhergesagt werden? Sind die extrahierten Daten brauchbar? Wie könnte man einen erfolgreichen Algorithmus in Betrieb nehmen und wie werden Warnungen an das Wartungsteam ausgegeben?

Schließlich wird das Projekt zum Produkt und operativ verankert. Dazu wird Infrastruktur wie zum Beispiel ein Data Lake eingesetzt und mittels Containerising das ML-Modell ausgeführt um die Ergebnisse dann in einem Dashboard darzustellen. Von da an hat die Produktionssteuerung durchgehend eine Idee, welche Maschinen in Gefahr laufen, auszufallen und das Projekt ist erfolgreich abgeschlossen.

Nachteile von CRISP DM

Während CRISP-DM ein sehr strukturierter und häufig eingesetzter Prozess ist, hat er auch einige Lücken, auf die wir kurz eingehen möchten.

Kein Projektmanagement in CRISP DM

Einer der häufigsten Kritikpunkte an CRISP-DM ist, dass kein Projektmanagement eingedacht ist. Der Nachfolger ASUM-DM von IBM behebt dieses Problem, jedoch bleibt es im Originalprozess bestehen. Nichtsdestotrotz kann kontinuierliches Projektmanagement sicherlich hinzuorchestriert werden, so dass der Gesamtprozess von einer dedizierten Person gemanaged wird.

Datenakquisition wird nicht eingedacht

CRISP DM geht wie üblich im Data Mining davon aus, dass Daten vorhanden sind. Doch dies ist oft nicht der Fall: Entweder sind sie nicht erfasst, nicht im Unternehmen oder existieren noch gar nicht. Diese Data Acquisition ist mit CRISP DM nicht abgedeckt, sondern man startet immer mit der Annahme, dass genügend Daten für die erfolgreiche Durchführung der Phasen vorhanden sind.

Sehr linearer, eindimensionaler Prozess

Ein weiterer Kritikpunkt an CRISP ist, dass es ein relativ eindimensionaler Prozess ist. Während die Phasen nicht linear abgearbeitet werden, sondern selbstverständlich auch Rückschritte möglich sind (siehe Visualisierung), wird dennoch von einem Fortschritt durch die Phasen ausgegangen. Weiterhin wird komplett ignoriert, dass im agilen Arbeiten in vielen Anwendungsfällen erst ein Proof of Concept durchgeführt wird, bevor man diesen als vollständiges Datenprodukt umsetzt, was mit erheblich mehr Planung und Aufwand verbunden ist.

Warum der CRISP DM Prozess so relevant ist

Abschließend möchten wir kurz zusammenfassen, weshalb die CRISP DM Methode so relevant ist. Einfach gesagt hatte damals CRISP DM das Ziel, ein standardisiertes Verfahren zu etablieren. Dieser Standard hat drei Effekte: Einerseits strukturierter er das Vorgehen, so dass alle Phasen beachtet werden und keine groben Fehler gemacht werden. Dies erlaubt es hingegen als zweiten Effekt, dass das Vorgehen über mehrere Projekte vergleichbar ist. Als drittes ist ein solcher Standard vor allem auch der Professionalisierung eines damals noch sehr jungen Bereichs zuträglich. 

Folglich sehen wir CRISP DM als sehr etabliertes und wichtiges Modell. Und selbst wenn nicht alle Unternehmen genau den Vorgaben der Methode folgen ist in den meisten Unternehmen jedoch ein Data Science Process etabliert, der dem Modell sehr ähnelt, da CRISP DM alle wichtigen Phasen abdeckt. Und ein solcher Prozess ist notwendig, um strukturiert und effizient mit dem Thema Data Science umzugehen.

Veröffentlicht am

Was ist Google Data Studio und was kann es?

Mehrere Dashboards

Google Data Studio erobert immer mehr Nutzer für sich. Das Visualisierungstool überzeugt durch sein verständliches User Interface und die einfache Anbindung verschiedener Datenquellen. Als Hauptargument für die Nutzung von Google Data Studio zählt aber nach wie vor, dass es kostenlos zu nutzen ist und kontinuierlich durch die Community erweitert wird. In diesem Artikel möchten wir Google Data Studio vorstellen, auf die Komponenten eingehen und die Vor- und Nachteile evaluieren.

Was ist Google Data Studio?

Google Data Studio ist ein Visualisierungs- und Dashboardingtool aus dem Hause Alphabet. Das kostenlose Tool überzeugt durch seinen einfachen Zugang, viele Standardkonnektoren und eine Bandbreite and Visualisierungsoptionen. Vor allem auch die direkte Integration mit anderen Google Services ist ein Argument für die Nutzung.

Prinzipiell bietet Google Data Studio alles, was andere Visualisierungstools auch bieten. Konnektoren zur Anbindung von Datenquellen über gewisse Optionen zum ETL (z.B. Data Merges, Berechnung neuer Variablen) bis zu vielen Standardvisualisierungen. 

Somit erlaubt es Google Data Studio, sehr einfach und schnell Analysen und Visualisierungen zu erstellen, während man bei vergleichbaren Tools eine sehr viel höhere Anlaufzeit hat. Auch komplette fachfremde Personen finden sehr schnell Zugang zum Produkt und erstellen im Handumdrehen ein eigenes Dashboard. Dies trägt direkt zur Demokratisierung von Data Analytics und somit zur Förderung des Data-Driven Mindset im Unternehmen bei.

Komponenten von Google Data Studio

Konnektoren & Kombination

Es gibt 16 Standardkonnektoren, die von Google gepflegt werden: 

  • BigQuery
  • CampaignManager
  • Cloud Spanner
  • Cloud SQL for MySQL
  • Display & Video 360
  • File Upload
  • Google Ad Manager
  • Google Ads
  • Google Analytics
  • Google Cloud Storage
  • Google Sheets
  • MySQL
  • PostgreSQL
  • Search Ads 360
  • Search Console
  • YouTube Analytics

Daneben gibt es eine wachsende Liste von Communitykonnektoren, derzeit über 200 Stück. Diese Basis erlaubt es, zahlreiche Datenquellen direkt und ohne zusätzliche Arbeit anzubinden. Der zweite Schritt im ETL-Prozess wird durch die Möglichkeit von Datentypenbestimmung und Data Source Blending ermöglicht. Joins oder Berechnung neuer Variablen – alles möglich in der Datenquellenverwaltung von Google Data Studio.

Graphen & Visualisierung

Visualisierungen und Graphen in Google Data Studio
Visualisierungen und Graphen in Google Data Studio

Google Data Studio bietet 32 Graphen, verteilt auf 13 Kategorien:

  • Tabelle (Table)
  • Kurzübersicht (Scorecard)
  • Zeitachse (Time Series)
  • Balkendiagramm (Bar)
  • Kreisdiagramm (Pie)
  • Landkarte (Geo)
  • Google Maps
  • Liniendiagramm (Line)
  • Flächendiagramm (Area)
  • Streudiagramm (Scatter)
  • Pivot-Tabellen (Pivot table)
  • Bullet-Diagramm (Bullet)
  • Strukturkarte (Treemap)

Jeder Graphen kann nochmal  angepasst werden im Bezug auf Datenquellen, Aggregierung, Auflösung der Daten und Vergleich zu historischen Daten. Zudem erlaubt es Google Data Studio, auch die grundlegenden visuellen Aspekte, also Farbe, Schriftart und -größe, Positionen, Rahmen und anderes anzupassen. Insgesamt eine große Option zur Visualisierungsindividualisierung.

Community-Visualisierungen

Nebst der Standardvisualisierung ist die Idee bei Google auch, dass Google Data Studio durch die Community um zahlreiche weitere Visualisierungen erweitert wird. Momentander Stand sind 27 verfügbare Community-Visualisierungen, unter anderem: 

  • Histogramm
  • Waterfall
  • Sankey
  • Heatmap
  • Sunburst
  • Gauge
  • Funnel
  • Radar
  • Timeplot

Während diese Bandbreite bis dato noch gering ist, lässt sie doch hoffen, dass eine Art Crowd-Entwicklung die Optionen bei Google Data Studio sehr schnell und sehr breit voran treibt.

Visuelle Elemente 

Nebst der Datenverwaltung und den Graphen erlaubt Google Data Studio auch die Platzierung von visuellen Elementen. Text, Formen, Linien und Bilder sind die Basis für eine visuelle Gestaltung der Dashboards. Durch das Grid- und Anordnungssystem von GDS können diese Elemente auch sehr einfach visuell ansprechend platziert werden und verbessern somit sonst sehr trockene Reports.

Vorteile von Google Data Studio

Setup & geringe Zugangshürden

Wie bereits erwähnt existieren bei Google Data Studio quasi keine Hürden, um loszulegen. Sowohl Setup als auch Pflege sind für jedes Expertiselevel und somit für Data Analytics und Business Stakeholder gleichermaßen geeignet.

Integration mit anderen Google Services

Wer ein GoogleMail-Konto besitzt, Google Analytics einsetzt oder andere Google Produkte nutzt, der hat direkten Zugriff auf die Visualisierungssoftware. Umständliche Abrufe über Google APIs oder dergleichen gehören somit der Vergangenheit an.

Der Preis: Kostenlos

Seit 2018 ist Google Data Studio kostenlos. Es ist unklar, ob Google in Zukunft ein ähnliches Freemium-Modell wie mit Google Analytics 360  fahren möchte oder es dauerhaft kostenlos bleibt.

Embedded Dashboards

Durch das iframe-snippet können Dashboards direkt und sehr einfach in jede Website oder App eingebunden werden, die HTML unterstützt. Einfach kopieren und schon ist das Dashboard live.

Unbegrenzte Daten und Reports

Bis dato gibt es keine Begrenzung an Datenquellen oder Dashboards.

Branding und Designoptionen

Durch die einfache Kombination von Design- und Analyseelementen ist es sehr einfach, die Dashboards auch visuell auf das Unternehmen zu branden. Daher lassen sich einfach sehr visuell ansprechende Reports erstellen.

Anzahl an Konnektoren

Die Anzahl an Konnektoren ist bei Google Data Studio mit über 220 sehr hoch, allerdings sehr Marketinglastig.

Nachteile von Google Data Studio

Performanz / Geschwindigkeit

Die Nachteile zeigen sich hingegen schnell bei intensiverer Nutzung. Vor allem die Performanz bei vielen Visualisierungen oder großen Datenmengen lässt schnell zu wünschen übrig.

Notifications 

Google Data Studio besitzt keine Option um Notifications zu schicken. 

Exports

Online dashboard – oder nichts. Das ist das Credo von Google Data Studio. Weder PDF-Exports noch andere Varianten der Verteilung der Dashboards sind möglich.

Reporting-Funktionalität

GDS besitzt keine Möglichkeit einen Report aus den Daten zu extrahieren und/oder automatisch per E-Mail zu senden. Während Google Analytics eine rudimentäre Reportingfunktion integriert hat, hat Google Data Studio dies nicht.

Visualisierungsvarianten

Im Vergleich zu anderen Visualisierungstools bietet GDS eine eher geringe Anzahl an Visualisierungsoptionen. Sowohl Graphenarten als auch feine Adjustierungen lassen sich bei anderen Tools besser als auch feiner steuern.

Google Data Studio im Vergleich: GDS vs. PowerBI vs. Tableau

Google Data StudioPowerBITableau
PreiskostenlosBasisversion kostenlos, sonst $10 pro Nutzer$70 pro Nutzer
Konnektoren> 220> 90>80
IntegrationSehr einfach bei HTMLBandbreite von Desktop, Mobile und WebDesktop und Web
SetupSehr einfachEinfach bei Verwendung von Microsoft-ProduktenEinfach
GeschwindigkeitLangsamHochSehr hoch

Beispiele und Templates für Google Data Studio Dashboards

Hier einige Sammlung von kostenlosen Google Data Studio Templates:

Weitere Informationen

Einführung zu Google Data Studio

Google Data Studio Tutorial 

Veröffentlicht am

Big Data anhand seiner Merkmale einfach erklärt

Ein Laptop mit Code auf dem Bildschirm

Als Big Data werden Datensätze bezeichnet, die sich in den Merkmalen Volumen, Geschwindigkeit, Datentypen, Qualität, Wert oder Variabilität von herkömmlichen, strukturierten Datensätzen unterscheiden. Diese Massendaten benötigen sowohl in Erfassung, Speicherung als auch Auswertung neue, spezialisierte Systeme und Methoden, ermöglichen aber sogleich genauere und umfangreichere Analysen und Vorhersagen als zuvor.

Big Data Merkmale
Big Data Merkmale anhand der 6 Vs

Als Beispiele gelten Daten aus dem Umfeld von IoT (Volume), Daten auf Videoportalen wie YouTube (Variety), Daten aus sozialen Netzwerken (Velocity), die Dokumentation und Pflege von Datensätzen (Veracity), Sensorendaten (Value) und saisonale Datensätze (Variability). Generalisiert werden diese Merkmale in den Big Data 6 Vs, die zeigen, dass es nicht nur um große Datensätze, sondern vor allem auch um neue Datenarten geht, die verarbeitet werden sollen.

Details zum Thema Big Data sind in unserem ausführlichen Beitrag “Big Data Definition, Merkmale und Technologien” zu finden.

Veröffentlicht am

Data Warehouse vs Data Lake: Der Unterschied einfach erklärt

Data Warehouse vs. Data Lake - der Unterschied einfach erklärt

Oft ist nicht ganz eindeutig klar, wo der Unterschied zwischen einem Data Warehouse und einem Data Lake liegt. Daher möchten wir in einfacher Art und Weise erklären, wie sich Data Warehouse und Data Lake voneinander abgrenzen und wie beide Infrastrukturkonzepte eingesetzt werden.

Infografik Data Warehouse vs. Data Lake

Infografik Data Warehouse vs. Data Lake
Infografik Data Warehouse vs. Data Lake

Data Warehouse: Definition und Vor- und Nachteile

Ein Data Warehouse (DWH) ist eine aufbereitete, strukturierte (tabularisch) erfasste Datenquelle. Im einfachsten Fall eine SQL-Datenbank, die mindestens einen Datensatz beinhaltet. Auf Enterprise-Level nimmt ein solches Warehouse selbstverständlich schnell größere Ausmaße ein, so dass es ganze Business Intelligence Abteilungen gibt, die sich nur mit dem Business Warehouse beschäftigen.

Dadurch, dass bei einem Data Warehouse die Daten in strukturierter Form abgespeichert werden, ergeben sich einige Vor- und Nachteile. Um ein DWH zu pflegen, muss im ersten Schritt die Struktur, das sogenannte Schema, festgelegt werden. Diese Vorgehensweise nennt sich Schema-on-Write und bildet die Basis für zu konsolidierende Daten: Wie sieht eine Zeile aus, welche Attribute (Spalten) beinhaltet jede Zeile, welche Daten sind zu erwarten. Im Umkehrschluss heisst dies auch, dass nur diese Form von strukturierten Daten in ein DWH gespeichert werden können.

Folglich ist der Vorabinvest bei einem Data Warehouse hoch und die Flexibilität, neue Daten anzuschließen, relativ gering. Auf der anderen Seite ergeben sich dadurch auch Vorteile: Durch das klare Datenmodell ist eine hohe interne Konsistenz zu erwarten und einfache Analysen, wie im Business Reporting üblich, sind sehr schnell und einfach durchzuführen.

Eigenschaften eines Data Warehouses (Zusammenfassung):

  • Erfassung strukturierter Daten in meist tabularischem Format
  • Datenmodell vorab festgelegt (Schema on Write)
  • Geringe Flexibilität für neue Datenquellen
  • Hohe Robustheit, einfache Pflege
  • Geringe Skalierbarkeit
  • Unklare Verarbeitungsschritte (z.B. Datenqualität, Ausschlüsse, etc)
  • Geeignet für Business Analysts für KPI-Reporting

Data Lake: Definition und Vor- und Nachteile

Der Data Lake auf der anderen Seite ist entstanden, da nicht mehr nur strukturierte und vorbereitete Daten verarbeitet werden sollen, sondern sich die Bandbreite an Datentypen und Analysen erhöht hat. Somit bildet ein Data Lake ein Konglomerat an Datenbanken und anderen Datenspeicherungsstrukturen, um sowohl strukturierte als auch unstrukturierte Daten zu erfassen und in verschiedenen Verarbeitungsschritten (roh, verarbeitet, analysiert,..) zu speichern. 

Diese sehr hohe Flexibilität im Bezug auf zu erfassenden Datenquellen kommt entsprechend mit anderen Ansprüchen. Eine sehr hohe Governance, also die Kontrolle über gespeicherte Datensätze, deren Inhalte und Verarbeitungszustand, ist notwendig, damit der Data Lake nicht zum “Data Swamp” verkommt. Als Data Swamp wird ein ungepflegter Data Lake bezeichnet, in dem wild Daten ohne entsprechende Dokumentation gespeichert werden, so dass man den Überblick und ggf. Zugriff verliert. Weiterhin wird durch die Ermangelung eines fixen Datenmodells erst beim Auslesen der Daten die Inhalte genau erfasst (sog. Schema on read), was eine Fehlerquelle darstellt. 

Nichtsdestotrotz überwiegen bei einem Data Lake meist die Vorteile. Die sehr hohe mögliche Varianz an Datenquellen (z.B. RDBMS, Bilder, Videos, Text) und die Bereitstellung in möglichst roher Form erlaubt Data Scientists fortführende Analysen, die in einem DWH nicht möglich sind. Durch eine gute Dokumentation werden auch die Weiterverarbeitungsschritte durchsichtig, was zu besser Kollaboration und einem besseren Verständnis führt. Ein wichtiger Aspekt ist auch die Skalierbarkeit, die im Data Lake sehr gut gegeben ist im Vergleich zu klassischen Datenbanken (siehe auch Big Data). Zudem werden Daten in einen Data Lake repliziert, wodurch sich die Last (z.B. durch anspruchsvolle Machine Learning Algorithmen oder Data Mining) auf die Quellsysteme massiv verringert.

Bonusfrage: Kann ein Data Lake ein Data Warehouse beinhalten?

Oft kommt die Frage auf, ob ein Data Lake andere Datenbankstrukturen, wie zum Beispiel ein Data Warehouse, beinhalten kann. Die Antwort ist definitiv: Ja! Aus Sicht des Data Lakes ist ein DWH nichts anderes als ein Datensatz.

Eigenschaften eines Data Lakes (Zusammenfassung)

  • Erfassung von strukturierten und unstrukturierten Daten in vielen Formaten
  • Datenmodell wird beim Auslesen festgelegt (Schema on read)
  • Sehr hohe Flexibilität für neue Datenquellen
  • Sehr hoher Pflegebedarf, um nicht zum “Data Swamp” zu verkommen
  • Hohe Skalierbarkeit
  • Bei guter Dokumentation sehr klare Verarbeitungsschritte
  • Geeignet für Data Scientists für Künstliche Intelligenz & Machine Learning

Data Warehouse vs. Data Lake: Einfach erklärt

Nimmt man diese Information zusammen, gibt es eine sehr einfache Erklärung wie sich das Data Warehouse zum Data Lake verhält. Abstrahiert kann das Data Warehouse wie eine Excel-Datei auf dem Computer betrachtet werden, während der Data Lake einen Dateiordner darstellt. 

Das DWH enthält, so wie eine Exceldatei, sehr strukturiert Daten mit benannten Spalten in einem fixen Schema. Neue Einträge hinzufügen ist kein Problem, neue Spalten gestaltet sich je nach bereits vorhandenem Inhalt schwieriger. Wenn die Daten eingetippt und gespeichert wurden, sind die Originale nicht mehr auffindbar, daher muss man sich auf die Datei verlassen. Die Inhalte wiederum sind sehr einfach für bestimmte Anwendungsfälle zu nutzen: Visualisierungen oder einfache Rechenoperationen zur KPI-Berechnung sind sehr komfortabel.

Nimmt man nun den Data Lake im gleichen Beispiel, dann verhält sich dieser wie ein Dateiordner auf der Festplatte. Man kann eine Vielzahl an (originalen) Daten ablegen, ohne diese vorher formatieren, abtippen oder strukturieren zu müssen. Möchte man mit den Daten weiterarbeiten, muss man allerdings auch erst die Daten aufbereiten und kann nicht einfach Summen über Spalten ziehen. Hat diese Aufbereitung jedoch stattgefunden, kann man die Daten dann auch wieder im Ordner speichern. Selbst viele Excel Files – also Data Warehouses – kann man somit generieren und zur weiteren Verarbeitung im Ordner speichern.

Hoffentlich ist dieses einfache Beispiel so einleuchtend wie gedacht und erklärt den Unterschied zwischen Data Warehouse und Data Lake. Für Unternehmen macht es je nach Maturität des Data Driven Business Sinn, eines oder beide der Infrastrukturen einzusetzen. Ein DWH erlaubt einer Bandbreite an Nutzern einen schnellen Zugang zu strukturierten Daten zur Analyse, während ein Data Lake fortgeschrittenen Anwendern, zum Beispiel Data Engineers und Data Scientists, ermöglicht Machine Learning und andere Advanced Analytics Methoden anzuwenden. 

Veröffentlicht am

Der Data Scientist: Alles was man wissen muss (mit Infografik)

Data Scientist

Der Data Scientist – “The sexiest job in the 20th century” – titelte die Harvard Business Review. Doch was macht ein Data Scientist eigentlich genau? Und wie wird man Data Scientist? In diesem Artikel versuchen wir das Profil eines Datenwissenschaftlers darzustellen, seine Aufgaben zu definieren und zu skizzieren, wie man diese Laufbahn einschlagen kann.

Allgemein gesagt, betreut der Data Scientist die gesamte Prozesskette von Datenverwendung. Von der Definition eines datenbasierten Anwendungsfalls über die Identifikation der Datenquellen zur Analyse und gegebenenfalls dem Training von Machine Learning Modellen.

Als Datenwissenschaftler muss man eine breite Kombination an verschiedenen Fertigkeiten mitbringen. Vor allem auf Basis von großen Datenmengen, also Big Data, entfalten Data Scientists ihre volle Wirkung.

Inhaltsverzeichnis

Infografik Data Scientist: Beschreibung, Aufgaben und Tools

Infografik Data Scientist
Infografik zur Definition, den Aufgaben und den Tools des Data Scientists

Die Aufgaben und Skills: Was macht ein Data Scientist?

Data Scientist Aufgaben
Die Aufgaben des Data Scientists sind je nach Spezialisierung sehr breit

Als Datenwissenschaftler hat man die Aufgabe, datenbasierte Anwendungsfälle zu definieren und umzusetzen. Somit nimmt man eine Mischrolle ein: Einerseits geht es um gutes Verständnis des Unternehmens und deren Produkten, andererseits um technische Expertise. Genauer umfasst die Arbeit des Data Scientists folgende Aufgaben:

  • Ansprechpartner für Domänenexperten für Data Science
  • Identifikation und Ausarbeitung von datenbasierten Use Cases
  • Identifikation von passenden (Big Data) Datenquellen 
  • Anbindung von Datenquellen oder Zugriff auf Data Warehouse oder Data Lake
  • Prüfung der Datenqualität, deskriptive Analyse der Daten
  • Erstellen von Attributen (Feature Engineering)
  • Trainieren, Testen und Validieren von Machine Learning Modellen; “Big Data Analytics”
  • Operationalisierung der Erkenntnisse durch Deployment oder Visualisierung
  • Kommunikation der Ergebnisse

Kleine Unternehmen oder jene, die am Anfang der Nutzung von Daten stehen, konzentrieren dieses sehr breite Anwendungsfeld auf eine Person (ein sogenanntes “Unicorn”). Je nach Unternehmensgröße und Stand der Digitalisierung bzw. Big Data Strategie ist es allerdings natürlich unrealistisch, dass alle Fähigkeiten in einer Rolle vereint sind. Daher haben Data Scientists heute sehr verschiedene Foki in ihrer Arbeit oder spezialisieren sich auf einzelne Prozessschritte, wie der Data Engineer zur Bereitstellung der Daten, der Machine Learning Engineer zur Modelloptimierung oder der Data Translator als Schnittstelle zur Business-Domäne.

Welche Tools nutzt ein Data Scientist?

Data Scientist Tools
Ein Auszug aus den Werkzeugen des Data Scientists

So breit wie die Aufgaben des Data Scientists, so breit sein Toolset. Im Zentrum stehen wohl die Programmiersprachen python und R. Sie werden genutzt um Daten-Pipelines zu schreiben, die Daten zu verarbeiten und selbstverständlich zu analysieren. Machine Learning Pakete erlauben eine einfache Umsetzung der Modellierung, durch Visualisierungspakete lässt sich gut explorative Datenanalyse betreiben.

Neben diesem Handwerk, das jeder Data Scientist beherrschen sollte, gibt es aber selbstverständlich inzwischen anwenderfreundliche Tools. Zur Datenextraktion eignen sich ETL-Tools wie Pentaho oder Azure Data Factory, zur Modellierung oder dem Data Mining zum Beispiel das GUI-basierte KNIME oder Google AutoML. Das Deployment erfolgt im Anschluss beispielsweise über Docker oder die Bereitstellung von APIs, welche auch gerne in Java umgesetzt werden. Werden Daten visualisiert und an das Business ausgespielt, eignen sich Tools wie Tableau oder PowerBI.

Aber auch Tools, die sich im Bereich des Data Governances befinden sollten einem Data Scientist nicht fremd sein. Datenquellen sauber dokumentieren, Inhalte definieren und deren Einsatz erfassen – alles Aufgaben, die zwar nur indirekt die eigene Arbeit beeinflussen, aber langfristig die Qualität verbessern. Als Beispiele seien hier Informatica, Azure Data Catalogue oder Talend aufgeführt.

Einen breiteren Auszug der Tools und Technologien genutzt von Data Scientists hier in Tabellenform:

NameKategorie
Python, z.B. scikit, TensorFlow, kerasAnalytics & Machine Learning
RAnalytics & Machine Learning
SQLAnalytics & Pipelines
ScalaAnalytics & Machine Learning
JuliaAnalytics & Machine Learning
JavaPipelines
TalendPipelines
PentahoPipelines
SparkPipelines
RapidMinerPipelines & Machine Learning
KNIMEPipelines & Machine Learning
Microsoft AzureCloud
Google CloudCloud
Amazon Web Services (AWS)Cloud
TableauVisualisierung
PowerBIVisualisierung
MicroStrategyVisualisierung
DockerDeployment

Wie grenzt man Data Scientists von Data Analysts und Data Engineers ab?

Oft herrscht Verwirrung, welche Aufgaben Datenwissenschaftler im Vergleich zu anderen Rollen übernehmen. Und diese Unklarheit ist nachzuvollziehen, denn weder Data Science als Bereich noch der Data Scientist als Rolle sind klar definiert. Zudem ändern sich ständig die Anforderungen sowie die Kompetenzen.

Generell gilt aber, dass der Data Scientist sich vom Data Analyst unterscheidet, indem er stärker auf Advanced Analytics Methoden wie Künstliche Intelligenz und maschinelles Lernen setzt. Ebenso ist er verstärkt in Cloud Technologien und Programmierung involviert, während Data Analysts eher auf die Verbindung zur Business-Domäne und Visualisierung von Daten setzen. 

Im Vergleich zum Data Engineer sind die Data Scientists einerseits viel umfassender am gesamten Datenprozess beteiligt, andererseits hört die Arbeit der Engineers mit der Bereitstellung der Daten auf. Daher kann man argumentieren, dass Data Engineers sich auf den Datenakquise- und Bereitstellungsprozess professionalisieren, während Data Scientists die Auswertung übernehmen. Zusammengenommen:

TitelData ScientistData AnalystData Engineer
AufgabeDefiniert Anwendungsfälle und nutzt Advanced Analytics um sie zu implementieren.Analysiert und visualisiert Daten.Betreibt und füllt Dateninfrastrukturen.
Ähnliche RollenMachine Learning Engineer, Artificial Intelligence ExpertBusiness AnalystBig Data Engineer, Software Engineer, Cloud Specialist

Wie wird man Data Scientist?

Mit dem Hype der Datennutzung ist auch der Beruf des Data Scientists auf einem Allzeithoch. Sowohl was Jobs, als auch was Nachwuchskräfte betrifft. Dementsprechend sprießen Onlinekurse, Ausbildungen, Weiterbildungen, Coaches und Studiengänge aus dem Boden. Daher ist es für angehende Datenwissenschaftler inzwischen schwierig, sich im Angebotsdschungel zu orientieren und zu erkennen, was gute Grundlagen für diese Position sind. Hier nochmal zusammengefasst, welche Fähigkeiten man als Data Scientist mitbringen sollte:

Als Wege zur Ausbildung zum Data Scientist sehen wir folgende Möglichkeiten:

  • Onlinekurse wie z.B. Coursera oder Udacity: Für Ein- oder Umsteiger meist ein guter Überblick über Basiswissen, inklusive angewandte Problemstellungen. Dennoch oft sehr künstliche Umgebungen, die verhindern, dass man an realen Problemen (z.B. Datenextraktion, Datenqualität) lernt.
  • Wettbewerbe bzw. Competitions wie z.B. Kaggle: Gut, um Machine Learning Fähigkeiten auszuprobieren; wer die Zeit und Fähigkeiten für einen oberen Platz hat, ist meist für eine Machine Learning Optimisation Engineering Stelle sehr attraktiv. Hier fehlen die Aspekte Datenakquise, -konsolidierung, explorative Datenanalyse (EDA) und Vermittlung des Mehrwerts an die Business-Stakeholder, da meist eine sehr konkrete Aufgabe gestellt ist.
  • Universitätskurse oder -abschlüsse wie z.B. Informatik, Physik oder neuerdings Data Science: Ein Studium ist perfekt um sich theoretisch und praktisch in die Materie einzuarbeiten. Meist kommt auch die Businessansicht bei einem Studium nicht zu kurz, weshalb auch dieses Verständnis trainiert wird. Problematisch sind die künstlichen Daten mit denen gearbeitet wird sowie die lange Ausbildungszeit.
  • Praktische “Hobby”-Projekte, die z.B. ein Github Portfolio aufbauen: Diese angewandten Probleme sind meist sehr sinnvoll, um auch praktischen Problemen im Datenkreislauf zu begegnen. Vom Aufsetzen der Infrastruktur über das Nutzen von Cloud Services bis hin zur Frage des Effekts eines Use Cases sollte ein praktisches Projekt die meisten Herausforderungen abdecken. Zu kurz könnte die Verbindung zum Business und vor allem auch die theoretische Ausbildung kommen.

Wie man sieht, gibt es keine Goldene Methode um Data Scientist zu werden. Wer plant, Data Science als Disziplin einzuschlagen, muss sich vielmehr über eine Kombination der Möglichkeiten ausbilden. Wir empfehlen daher, hierarchisch geordnet sich über einen theoretischen Kurs (z.B. Studium oder Online) in einen praktischen Test Case (z.B. Kaggle) zu bewegen, um dann Wissen und Kenntnisse in einem “Pet Project” auszuspielen. Am Ende werden meist die Data Scientists bevorzugt werden, die den Problemen bei sowohl Use Case Umsetzung als auch Modellierung begegnet sind und ihre praktische Erfahrung direkt in ein Unternehmen einbringen können.

Welches Gehalt bekommt man als Data Scientist?

Wie üblich ein schweres Thema, da sich das Gehalt immer sehr stark nach Aufgaben, Erfahrung und Firmengröße und -branche richtet. Dennoch möchte ich hier grobe Anhaltspunkte geben, womit man als Data Engineer rechnen kann:

JuniorData ScientistMid-LevelData ScientistSeniorData Scientist
Berufserfahrung0 – 3 Jahre2 – 6 Jahre> 5 Jahre
ExpertiseGrundlegendes Wissen über Artificial Intelligence, Machine Learning und erste praktische Erfahrungen. Fortgeschrittene Programmierkenntnisse. Eigenständige Umsetzung mehrere Projekte bei einer Bandbreite von Algorithmentypen. Breite Erfahrung mit Problemen in Akquise, Analyse und Operationalisierung. Grundlegendes Verständnis über Businesswert von Use Cases.Leitung und vollumfängliche Umsetzung mehrer Anwendungsfälle von Datenpotential über Umsetzung bis Operationalisierung. Breite Erfahrung in der Optimierung von verschiedenen Machine Learning Algorithmen. Hohe Bandbreite an Tools und Technologien, um Projekte umzusetzen. Klares Bild von Relevanz und Priorisierung von Use Cases.
Gehaltsrichtlinie40.000€ – 60.000€ 50.000€ – 90.000€80.000€ – 130.000€

Für Manager: Worauf ist bei Einstellung eines guten Data Scientists zu achten?

Eine Stellenanzeige ist im Bereich Data Science bzw. Big Data so zu formulieren, damit man auch die richtigen Bewerber anzieht, ist nicht einfach. Vor allem durch den großen Hype um Data Science und die unklare Definition wer nun “Data Scientist” ist, bekommt man nicht unbedingt immer passende Profile. Aber auch Unternehmen sind hierbei frei von Ursache: Die meisten Stellenbeschreibungen passen auf so ziemlich alle Personen im Bereich “Data”. Daher gilt für Manager, bereits vor Beginn von Auswahlgesprächen:

  • Man muss selbst ein sehr klares Bild vom Status des Unternehmens auf dem Weg zur Data Driven Company haben
  • Es muss sehr klar sein und kommuniziert werden, welche Aufgaben der Data Scientist übernehmen soll. Generische Terminologie, fehlende Technologieangaben oder Teamgrößen schüren Unmut auf beiden Seiten.
  • Umso “junioriger” die Stelle, umso weniger Anforderungen sollten formuliert werden. Ein Junior Data Scientist mit 20 Jahren Erfahrung ist Unfug. 
  • Umso senioriger die Stelle, umso genauer sollte die Stelle beschrieben, sowie eine Gehaltsspanne definiert sein.

Wie man sieht, ist vor allem Transparenz und klare Zielsetzungen das Thema bei Stellenausschreibungen für Data Scientists. Dieser Filter erlaubt es, ausreichend, aber zielgenaue Profile zu bekommen. Falls zu wenig Bewerbungen eintreffen, muss an einer der Stellschrauben gedreht werden: Anforderungen, Gehalt oder Aufgabenattraktivität.

Im zweiten Schritt, also den Auswahlgesprächen, sollten vor allem auf folgende Punkte geachtet werden:

  • Wie passt das Profil des Bewerbers auf die gesetzte Erwartung in den Kategorien Erfahrung, technisches Wissen und kultureller Fit?
  • Kann das Unternehmen mit diesem Profil die nächsten Schritte in Richtung Data Driven Company gehen?
  • Data Science ist ein Team Sport – ist es der Bewerber auch?
  • Tools kann man lernen, ein technologisches Grundwissen und Affinität sind eher Charakterzüge
  • Versteht der Bewerber die ethischen und strategischen Implikationen von Data Science?
  • Hat der Bewerber ein Mindestmaß an praktischer Erfahrung, um Anfängerfehler zu vermeiden?

Zusammen genommen gilt es, mehr auf Erfahrung und weitreichende Arbeitsweise zu setzen denn als auf spezifische Tools. Denn der Einsatz von spezifischen Tools soll sehr variabel bleiben, ein Data-driven Mindset hingegen muss bleiben.

Veröffentlicht am

Was ist Big Data Veracity? Definition und Beispiele

Viele Zeilen Programmiercode

Veracity ist eine Ausprägung der 5 Vs von Big Data und steht für die (Un-)Sicherheit der vorliegenden Daten. Sie ist entscheidend um zu definieren, ob man Daten in Herkunft und Inhalt vertrauen kann. Neben anderen Big Data Metriken wie Volumen, Velocity, Variety und Value ist sie zentral für einen nachhaltigen Einsatz von Daten.

Inhaltsverzeichnis

Die 5 Vs der Big Data Definition

Die fünf Vs von Big Data haben sich aus ursprünglich 3 Vs entwickelt. Als initiale Definition von Big Data steht auch der Name: Das Volumen. 

Das Volumen von Daten spielt eine Rolle, da es mitunter der erste limitierende Faktor war: Daten konnten nicht mehr lokal auf einem Computer verarbeitet werden, sondern mussten auf Servern bzw. später verteilten Systemen verarbeitet werden.

Das zweite V ist Velocity – die Geschwindigkeit, mit der Daten generiert werden. Dies hat zwei primäre Auswirkungen: Einerseits ändert sich die zu analysierende Datenbasis kontinuierlich, andererseits müssen diese generierten Daten auch systemtechnisch erfasst werden, was nicht selbstverständlich war oder ist.

Das dritte V ist Variety, also die Variabilität der Datentypen. Hier wird neben strukturierten Daten (z.B. relationale Datenbanken) vor allem auf unstrukturierte Daten (z.B. Bilder, Audio, PDFs) angespielt. Diese Daten zu speichern, zu dokumentieren und vor allem zu analysieren hat neue Herausforderungen aufgeworfen.

Das vierte V ist die Veracity und kam hinzu, um die Qualität von Daten in Frage zu stellen. Die genauere Definition treffen wir im nachfolgenden Abschnitt.

Das fünfte V ist das Value, also der Wert der erfassten Daten. Dies hat nur noch bedingt mit “Big” Data zu tun, sondern gilt umfassend für alle gespeicherten Daten. Nur Daten, die auch sinnvoll zu nutzen sind, bringen dem Unternehmen Vorteile.

Das sechste V, das zusätzlich erfasst wurde, deckt die Variabilität von Daten ab. Die Variability zielt vor allem auf zeitlich sich ändernde Daten ab – wie zum Beispiel sich saisonal ändernde Daten und deren Interpretation.

Das vierte V: Big Data Veracity

Definition von Big Data Veracity
Veracity bedeutet Aufrichtigkeit, also die Qualität von Daten

Die Big Data Veracity, auf Deutsch die “Aufrichtigkeit” oder “Wahrhaftigkeit” der Daten beschäftigt sich mit der Qualität der vorliegenden Daten. Im speziellen kann man Veracity in die beiden Bereiche Herkunft und Inhalt unterteilen.

Die Herkunft der Daten ist von hoher Relevanz, damit man die Vertrauenswürdigkeit der Quelle definieren kann. Interne Datensätze sind meist vertrauenswürdiger als externe Datensätze. Gut gepflegte Datensätze wiederum können allerdings einen höheren Wahrheitsgehalt als verwahrloste Datensätze beinhalten. Daher ist es immer ein schwieriges Gedankenspiel zu definieren, welche Herkunft die bessere ist. Dennoch möchte man dies sehr gerne dokumentiert haben – schon alleine deshalb, falls man neuere, mehr oder andere Daten zum gleichen Thema akquirieren möchte.

Der prominentere Teil der Big Data Veracity ist allerdings der Inhalt der Daten selbst. Der genormte Begriff dafür ist Datenqualität aus dem Bereich der Data Governance. Wie jede Data Driven Company inzwischen erkannt hat ist Data Governance – also die Prozesse, Prinzipien und Durchführung von Datenpflege – nach der Datenerfassung die nächste große Herausforderung. Denn ungepflegte, nicht gesäuberte oder unzureichend definierte und dokumentierte Daten führen meist nur zu eins: Schlechter Analyse.

Das “Garbage in, Garbage out”-Prinzip zeigt es am deutlichsten. Wenn man Daten von schlechter Qualität nutzt, wird – egal welche Aufwände man in die Weiterverarbeitung und Analyse steckt – auch eine schlechte Ergebnisqualität erwartet. Nur wenn man diese Qualität verhindert – also sich dem Thema Big Data Veracity widmet – kann ein Unternehmen Daten sinnvoll einsetzen.

Zusammenfassend kann man erkennen warum “Veracity” es auf die Liste der Big Data Vs geschafft hat. Nicht zu wissen woher Daten kommen, nicht zu wissen wie vertrauenswürdig der Inhalt ist und nicht zu wissen wie es um die Qualität der Daten steht sind Indikatoren dafür, dass man sich diesem Thema gesondert widmen muss. Data Governance Initiativen die Datenquellen dokumentieren, katalogisieren und Attribute definieren sind ein guter Anfang, Data Stewardship Programme für die Erhöhung der Datenqualität ein logischer nächster Schritt auf dem Weg zum nachhaltigen Einsatz von Daten

Beispiele für “veracious” Daten: Data Veracity in der Praxis

Ein Dashboard mit verschiedenen KPIs
Jede weitere Verwendung von Daten benötigt eine hohe Qualität

Beispiel 1: e-Commerce Rohdatenexport aus Webanalytics

Wenn man Rohdaten aus Webanalytics exportiert, gibt es oft das Problem, dass man aus externen Systemen keine Einträge löschen kann. Beispielsweise bei Google Analytics werden Falschbestellungen oder -buchungen (z.B. durch Bugs) mit exportiert. Diese kann man nur durch invertierte Negativbuchungen korrigieren – und das auch nur, wenn man weiß, dass man das tun muss. 

Nimmt man nun einen Rohdatenexport und ist sich dieser Problematik nicht bewusst, verzerrt es schnell alle Analysen, da Falschbuchungen mit eingerechnet werden. Gleichermaßen muss man zur Korrektur erst einmal wissen, welche Falschbuchungen ausgeglichen werden müssen, bevor man die Grundwahrheit wieder herstellen kann.

Beispiel 2: Undokumentierte Wetterdaten 

In vielen Suchmaschinen werden Wetterdaten, entweder historisch oder live, als Faktor mit eingerechnet. Diese Daten werden selten vom Unternehmen selbst produziert, sondern fast immer von extern akquiriert. Wenn ein Unternehmen nun historische Wetterdaten nutzt, die weder in Ursprung noch in Inhalt definiert sind, stößt man schnell auf Probleme: Welche Wetterstationen fließen ein? Wie kriegt man aktuelle Daten? Wenn der Service abgeschalten wird – wie finden wir einen möglichst ähnlichen externen Service, der die gleiche Datengrundlage abbildet? Klassische Beispiele für mangelnde Herkunft, Inhalte und somit Qualität.

Beispiel 3: Aggregierte Umsatzdaten im Data Lake

Einer der Vorteile von Data Lakes ist das Vorhalten von sowohl Roh- als auch weiterverarbeiteten Datensätzen. Greifen wir nun beispielsweise auf aggregierte Umsatzdaten zu, deren Berechnung nicht dokumentiert wurde, laufen wir schnell in die Problematik, weder Herkunft noch Qualität beurteilen zu können. 

Wie wurden die Daten verarbeitet? Welche Buchungsarten wurden selektiert? Gab es Filter? Viele Fragezeichen, die sich für die korrekte und effiziente Analyse von Daten nicht stellen sollten. Folglich wird der Data Lake zum Data Swamp und die Konsumenten können nicht beurteilen, ob die Weiterverarbeitung der Daten sinnvoll oder gar falsch ist. Hier sind alle Rollen, vom Data Engineer über den Scientist bis zum Management gefragt, um eine hohe Qualität zu gewährleisten.

Zusammenfassung von Big Data Veracity

Wenn man diese Aspekte gemeinsam betrachtet, wird die Wichtigkeit von Veracity im Big Data Kontext schnell klar. Es geht nicht nur darum zu wissen, ob die Inhalte und somit die Qualität der Daten hoch ist, sondern auch ob sie aus einer vertrauenswürdigen Quelle stammen und sich somit zur Weiterverarbeitung und Interpretation eignen. Man darf nicht vergessen, dass basierend auf Datenanalysen strategische, prozessuale und operative Entscheidungen getroffen werden. Falls diese Analysen auf schlechten oder falschen Dateninhalten basieren, kann es schnell zu großen Problemen führen.

Von daher empfehlen wir sich dem Thema Datenwahrheit, -dokumentation und -qualität ausführlich zu widmen. Data Governance, Data Management und Data Stewardship sind in der Data Driven Company wichtige Themen, in die viel Zeit, Energie und Budget investiert werden muss, um zukunftsgerichtet arbeiten zu können.

Wer mehr Details zu Big Data und den anderen Vs möchte, dem empfehlen wir unseren Artikel “Big Data Definition, Merkmale und Technologien“.

Veröffentlicht am

Data Science: Alles was man wissen muss (mit Infografik)

Data Science: Ultimativer Guide zu allem was man wissen muss

Data Science, der Einsatz von wissenschaftlich fundierten Methoden zur Datenanalyse, gewinnt immer mehr an Bedeutung. Doch oft ist unklar, was das Vorgehen beinhaltet, welche Ausbildung dafür nötig ist und welche Vorteile der Einsatz von Datenwissenschaftlern mit sich bringt. In diesem Artikel versuchen wir uns an einer Definition von Data Science, erklären den darunter liegenden Prozess und welche Rollen beteiligt sind. Um von der Theorie in die Praxis zu überführen, zeigen wir als Ausblick einige Beispiele, um den Mehrwert von Data Science darzustellen.

Infografik zum Thema Data Science

Data Science Infografik
Was ist Data Science? Infografik zu Definition, Prozess, Rollen und Beispielen

Inhaltsverzeichnis

Was ist Data Science?

Einfach gesagt ist Data Science, auf Deutsch Datenwissenschaft genannt, eine interdisziplinäre Herangehensweise zum Einsatz von Daten zur Generierung von Mehrwert. Das Vorgehen besteht aus Methoden der Statistik, Informatik und Wirtschaftswissenschaften, aus deren Kombination sich Möglichkeiten ergeben, auf (großen) Datenmengen basierte Lösungen zu entwickeln.

Entstanden ist der Begriff “Data Science” als Abgrenzung zur Informatik (Peter Naur, 1960) um eine auf Daten fokussierte Verarbeitung zu betiteln. Allerdings gab es erst nach der Jahrtausendwende Bewegungen für eine Verselbstständigung der Disziplin aus dem Feld der Statistik heraus. Die Idee war die multidisziplinäre Untersuchung von Daten mittels Statistik, um praktische Anwendung zu etablieren. Seitdem findet ein stetiges Wachstum des Feldes statt und die Datenwissenschaft erobert immer weitere Gebiete unseres täglichen Lebens.

Spricht man heute von Data Science, meint man vor allem den Einsatz von Big Data und Machine Learning, um problemorientierte Lösungen zu entwickeln. Dieses Vorgehen bildet auch die Trinität von Data Science: Statistik/Mathematik, Daten/Informatik und Wirtschaft/Business. Als Vorgehensweise zur Lösungsfindung hat sich der Data Science Prozess etabliert, der im nächsten Abschnitt detailliert dargestellt wird.

Spätestens als die Harvard Business Review in 2012 die Rolle des Data Scientists zum “sexiest Job in the 21st century” kürte, nimmt der Run auf das Thema und erfahrene Datenwissenschaftler kein Ende mehr. Doch folgend dem Hype der letzten Jahre stellt sich inzwischen Ernüchterung ein: Es ist nach wie vor oft unklar, wie Data Science genau “funktioniert”, welche Aufgaben Data Scientists haben und wie man expliziten Mehrwert für Unternehmen und Organisationen aus der Analyse von Daten schöpft. Diese Unklarheit möchten wir beseitigen.

Der Data Science Prozess: Aufgaben und Methoden

Der Data Science Prozess visualisiert
Der Data Science Prozess visualisiert

Im Einsatz von Data Science geht es darum, ein Problem zu verstehen und eine datenbasierte Lösung dafür zu entwickeln. Diese Lösung kann – muss aber nicht – auf Advanced Analytics wie Machine Learning basieren. Wichtig beim Prozess ist hingegen, dass ein iteratives, gegenseitiges Verstehen zwischen Business und Fachexpertise etabliert wird, um die Lösung nicht am “Kunden” vorbei zu entwickeln. Daher möchten wir in diesem Abschnitt den Data Science Prozess nochmal detailliert darstellen.

Use Case Definition: Den Anwendungsfall verstehen

Der erste und fundamental wichtigste Schritt ist, einen konkreten Anwendungsfall zu identifizieren, zu verstehen und einen passenden Lösungsansatz zu entwickeln. Selten gibt es “grüne Wiese”-Herangehensweisen, in denen man rein innovativ arbeiten kann. Daher ist der Data Scientist auch in einer Art Dienstleister-Rolle innerhalb des Unternehmens: Seine Aufgabe ist es, Mehrwert für andere Geschäftsbereiche wie Sales, Marketing oder Produktion zu schaffen. 

Der einfachste Weg um die Probleme und Bedürfnisse dieser Geschäftsbereiche zu verstehen ist: Mit ihnen reden. Ob per Workshop, Use Case-Formular oder bei einem Kaffee, die Wege sind für jedes Unternehmen individuell effektiv. Ziel ist es in allen Fällen hingegen, einen Use Case zu identifizieren und optimalerweise direkt auf Machbarkeit zu evaluieren. 

Data Identification & Engineering

Ist der Anwendungsfall klar, gilt es in den nächsten Schritt zu gehen. Hier werden für die Lösung passende Daten identifiziert, akquiriert und für die Auswertung vorbereitet. Die Daten sind optimalerweise in einem Datenkatalog dokumentiert und in einem Data Warehouse oder Data Lake bevorratet, was einen einfachen Zugriff erlaubt. Doch oft gibt es (noch) keine passenden Daten, dann ist eine Generierung oder Akquise von Daten nötig.

Jeder dieser Prozesse – Extraktion oder Akquise – fällt entweder in das Aufgabengebiet eines Data Scientists als Generalist oder in diversifizierten Unternehmen in das eines Data Engineers. Der Data Engineer kümmert sich in diesem Zug um die Zusammenführung, Speicherung und das Management von Daten, um sie dann den Konsumenten wie dem Data Scientist zur Verfügung zu stellen.

Methodisch ist die Bandbreite zur Erfassung, Speicherung und Dokumentation von Datensätzen sehr breit. Viele Tools beschäftigen sich mit diesem fundamentalen Schritt im Data Science Prozess. Nicht umsonst sind fähige Data Engineers momentan sehr gefragt. Details zu Tools & Systemen findet ihr in unserem Beitrag des Data Engineers und seinem Aufgabengebiet.

Fällt in diesem Schritt auf, dass die Daten nicht ausreichend den Anwendungsfall abbilden, dass sie nicht verfügbar sind oder die Qualität nicht stimmt, muss ein Schritt zurück zur Use Case Definition gegangen werden. Hier gilt es zu entscheiden, ob man dennoch mit den vorliegenden Daten weiter verfahren möchte, oder eher sich nochmals um die Datengrundlage kümmert.

Als letztes gilt es, die Daten für die weiteren Schritte vorzubereiten. Dies beinhaltet das Zusammenfügen verschiedener Datensätze, die Generierung von Metriken und auch das Säubern der Datensätze. Das Ziel dieses Schritt ist, einen verlässlichen Datensatz zur weiteren Verarbeitung oder Auswertung vorzubereiten. 

Auswertung, Analytics / Machine Learning & Evaluation

Der Kern von Data Science ist es, Erkenntnisse aus den Daten zu generieren. Etwas weiter gefasst gilt auch die reine Verarbeitung von Daten als Teil von Data Science. Folglich gibt es mehrere Möglichkeiten, diesen Prozessschritt zu erfüllen: Von der Verarbeitung über die Analyse von Daten bis zum Aushängeschild, dem Einsatz von Machine Learning Algorithmen. Jede  dieser drei Kategorien möchten wir hier kurz erläutern.

Wie bereits erwähnt, kann auch die reine Verarbeitung von Daten als Data Science gelten. Als Beispiel kann Objekterkennung genannt werden. Die Aufnahme von Bildmaterial und algorithmische Erkennung von bestimmten Objekten kann eine sehr herausfordernde Aufgabe sein. Diese und andere Aufgaben wie natürliche Sprachverarbeitung im Bereich Cognitive Computing leisten große Dienste in Automatisierung und Mehrwertgenerierung.

Von vielen als Zwischenschritt zum Machine Learning betrachtet gilt das klassische Analytics. Dennoch kann auch eine rein statistisch-deskriptive Analyse von Daten als Kernlösung von Datenwissenschaft gelten. Als Beispiel kann die Fast Fourier Transformation und entsprechende Analyse von Sound-Daten genannt werden. Fügt sich dieser Anwendungsfall in den gesamten Data Science Prozess ein, ist Analytics auch als Endpunkt der Auswertung möglich.

Viel häufiger wird jedoch Data Science mit Machine Learning assoziiert. Der Einsatz von Künstlicher Intelligenz ist ein Thema von großer Bedeutung und die Datenwissenschaftler vereinen das notwendige Skillset, um dieses Vorgehen umzusetzen. Somit beinhaltet dieser Schritt des Data Science Prozesses den gesamten Machine Learning Prozess von Feature Engineering, Model Training, Evaluation und Optimisation. Anwendungsfälle sind die Vorhersage von Werten oder Kategorien (Supervised Learning), zum Beispiel als Sales Forecasting oder Object Recognition, die Identifizierung von ähnlichem Verhalten (Unsupervised Learning) oder die Implementierung von Recommendation oder Reinforcement Systemen (z.B. Produktempfehlungen oder Autonome Wegfindung).

Insgesamt ist zu sagen, dass dieser Schritt im Data Science Prozess der delikateste ist: Nur wenn die richtigen Daten in guter Qualität zur Verfügung stehen, werden die Ergebnisse von hoher Qualität sein (“Garbage in, garbage out”). Und nur wenn man als Data Scientist ein Ergebnis produziert, dem vertraut wird, wird man auch in Zukunft mit seiner Expertise Gehört finden.

Was Tools & Systeme betrifft, ist auch diese Landschaft wieder sehr breit. Generell gibt es aber drei Hauptstränge was die Analyse und Modellierung von Daten betrifft: Entweder man nutzt Programmier-/Skriptsprachen wie python oder R, man setzt Data Mining Tools wie KNIME oder RapidMineR ein oder man nutzt Cloud Services wie Azure Analytics oder Google AutoML. Da jeder dieser Aspekte verschiedene Schwerpunkte hat, verweisen wir hiermit auf unseren detaillierten Artikel zum Thema Machine Learning.

Wenn man ein Ergebnis erreicht hat, das den optimalen Schnitt zwischen Vorhersagequalität und Vermeidung von Overfitting repräsentiert, gilt es, die Lösung nochmal zu evaluieren. Ein weiterer kollaborativer Blick auf die Ergebnisse erlaubt es dem Business, nochmals Einfluss zu üben und steuert Domänenexpertise zu. 

Deployment & Monitoring der Lösung

Wird sich entschieden, die Lösung (das Machine Learning Modell) in Produktion zu überführen und operativ zu nutzen, gilt der nächste Prozessschritt dem Deployment. Dieses Model Deployment bedeutet, dass entweder über ein Dashboard die Information oder eine Machine Learning Pipeline das Modell zur Verfügung gestellt wird. Somit können andere Systeme und/oder Kanäle des Unternehmens auf die Ergebnisse zugreifen und diese weiterverarbeiten. Diese Aufgabe findet sich meist im Bereich Data Engineering oder IT DevOps, da die Technologie in die IT-Landschaft integriert werden muss.

Hat man eine Lösung in Produktion gegeben, gilt es diese Lösung zu überwachen und gegebenenfalls zu reparieren oder verbessern (“Concept drift”). Diese Post-Deployment Service Maintenance ist nötig sehr früh mit anzudenken, da sie sauber in die IT-Prozesse überführt werden muss, da sonst ggf. Prozesse oder Kanäle versuchen auf einen Service zuzugreifen, der nicht verfügbar, nicht aktuell ist oder einfach falsche Informationen liefert.

Beteiligte Rollen im Bereich Data Science

Data Science Rollen: Data Scientist, Data Engineer, Data Analyst und Business Stakeholder
Data Science Rollen: Data Scientist, Data Engineer, Data Analyst und Business Stakeholder

Wie bereits mehrfach erwähnt, sind in der Datenwissenschaft viele Rollen beteiligt. Hier führen wir alle Rollen auf, geordnet nach dem Auftreten ihrer Häufigkeit im Prozess.

Data Scientists

Die Rolle, die im Zentrum von Data Science steht, ist selbstverständlich der Data Scientist selbst. Hier gibt es verschiedene Interpretationen, welche Aufgaben die Rolle übernehmen soll. Als Generalist deckt er üblicherweise den gesamten Prozess ab, während es allerdings in immer mehr Organisationen dazu kommt, dass die Rolle spezialisiert wird. Generell fallen folgende Aufgaben in das Portfolio des Data Scientists:

  • Use Case Verständnis, Anwendungsfall definieren und Lösung konzeptionieren
  • Datenidentifikation und -extraktion zum Use Case
  • Explorative Datenanalyse, Feature Engineering
  • Machine Learning Modellierung, Evaluation und Optimierung
  • Ausspielen der Information oder des Modells

Business Stakeholder / Domänenexperte

Domänenexperten sind am zweitwichtigsten in jedem Data Science Projekt, da sie die Schnittstelle zur Erfahrung und Bewertung des Erfolgs von Anwendungsfällen darstellen. Folglich ist eine enge Kooperation mit der Fachexpertise von fundamentaler Relevanz, um sinnvolle und geschäftlich tragbare Use Cases zu entwickeln.

  • Definition von Anwendungsfällen
  • Bewertung von strategischer Wichtigkeit und erwartetem Ertrag
  • Ansprechpartner für Domänenexpertise und -erfahrung
  • Evaluierung der Nutzbarkeit und des Erfolgs des Ergebnisses

Data Engineers

Wo keine Daten, da keine Analyse. Auch wenn Data Scientists oft im Rampenlicht der Analyse von Daten stehen, sind es doch Data Engineers, die erst die Grundlagen dafür schaffen. Sie unterstützen den Data Science Prozess mittels folgendem Einsatz:

  • Aufbau und Pflege von Dateninfrastruktur, Datenbanken und Cloud-Services
  • Aufbau und Pflege von Datenpipelines zur Erfassung und Konsolidierung von Daten
  • Bereitstellen von Schnittstellen für Datenkonsumenten
  • ggf. Ausspielen der Lösungen und Model Deployment

Data Architects

Wenn man sich auf Enterprise-Ebene mit dem Thema Daten-Infrastruktur befasst, wird man schnell bei den Data Architects fündig. Die Datenarchitekten übersehen die gesamte IT-Infrastruktur-Landschaft und verantworten folgende Prozesse:

  • Einordnen von Daten-Infrastruktur in die IT-Landschaft des Unternehmens
  • Definition und ggf. Aufbau von Lösungen für Anforderungen von Anwendungsfällen, u.a. Data Warehouse und Data Lake
  • ggf. Verantwortung von Themen wie Sicherheit und Zugriffskontrolle

Data Analysts / Business Analysts

“Was ist der Unterschied zwischen Data Analysts und Data Scientists?” lautet eine der am häufigsten gestellten Fragen in der Datenwissenschaft. Kurz gesagt ist der Unterschied: Data Analysts arbeiten meist nur mit strukturierten Daten aus Data Warehouses und bearbeiten Ad-Hoc Analysen aus der Domäne, während Datenwissenschaftler in jedem dieser Aspekten mit höherer Varianz arbeiten. Dennoch unterstützen Datenanalysten den Prozess in folgenden Aspekten:

  • Definition von Datenquellen die auf den Anwendungsfall passen
  • Unterstützung bei der deskriptiven Datenanalyse und Feature Engineering
  • Unterstützung bei der Visualisierung von Daten, zum Beispiel mittels Dashboards

DevOps / IT

Wie dem Data Science Prozess folgend, wird der Zeitpunkt erreicht werden, dass ein Machine Learning Modell oder ein anderes Skript operationalisiert werden soll. Um diese Aufgabe mit entsprechender Software Solutions Expertise zu lösen, wird auf Ressourcen aus der IT-Abteilung zugegriffen. Die DevOps unterstützen den Prozess indem sie:

  • Einfügen von Data Science Lösungen in die IT-Gesamt-Landschaft
  • Bereitstellen von Schnittstellen zwischen DS Lösungen und anderen Kanälen (z.B. Website, Apps, ERP, CRM..)
  • Pflege und Monitoring von Uptime und Funktionalität der Lösung

Data Translator / Data Ambassador

Zu guter letzt eine Rolle, die noch nicht weit verbreitet ist, aber einen gewissen Hype erfährt. Der Data Translator bzw. Data Ambassador vermittelt zwischen der Fachexpertise im Data Science Bereich und den Stakeholdern in der Domäne. Konkret heisst das:

  • Inspiration und Definition von Anwendungsfällen
  • Consulting und Wissenstransfer in die Domäne und von der Domäne in die Fachexpertise
  • Übersetzen von fachlichen Ergebnissen aus dem Data Science Prozess für klares Verständnis im Business

Begriffsabgrenzung

Eine der Hauptschwierigkeiten im Thema Data Science sind die naheliegenden Begriffe und deren Unterscheidung. Daher möchten wir etwas Klarheit in den Buzzwordjungle bringen, indem wir Data Science anderen Begriffen gegenüber stellen und den Unterschied definieren.

Data Science vs. Data Mining

Data Mining bezeichnet das explorative Untersuchen vorliegender Daten auf neue Muster mittels statistischer und Machine Learning Methoden. Data Science ist sowohl in Prozess (Use Case Definition, Datenakquise, etc) als auch Methodik umfassender als Data Mining.

Data Science vs. Artificial Intelligence (AI) / Künstliche Intelligenz (KI)

Künstliche Intelligenz bezeichnet die Simulation von intelligenten Verhalten durch Algorithmen. Data Science nutzt diese Idee sehr stark, indem sie Methoden des Machine Learnings oder andere Algorithmen einsetzt. Jedoch sind KI und die Datenwissenschaft nicht deckungsgleich. Data Science bezeichnet einen Prozess, der weit über die Algorithmen hinaus geht (Use Cases, Datenakquisition, etc), während AI als Thematik auch nicht vollständig durch Data Science repräsentiert ist.

Data Science vs. Machine Learning (ML) / maschinelles Lernen

Machine Learning ist, wie im Data Science Prozess dargestellt, nur eine von vielen Methoden um Daten zu analysieren. Daher ist das maschinelle Lernen ein Werkzeug im Analyse-Schritt und sicherlich auch eines der Aushängeschilder von Data Science, jedoch nicht equivalent.

Data Science vs. Data Analytics

Datenanalyse beschreibt ein strukturiertes Vorgehen, bereits erfasste und geordnete Daten auf klare Anforderungen (z.B. KPIs) auszuwerten. Data Science hingegen umfasst eine höhere Bandbreite an Technologien, Datentypen, Auswertungsansätzen und Einsatzzwecken. Für Details zum Unterschied zwischen Data Science und Data Analytics, besucht unseren Artikel “Data Scientist vs Data Analyst: Was ist der Unterschied?”.

Data Science vs. Advanced Analytics

Advanced Analytics bezieht sich auf die eingesetzte Methodik in der Data Science, von daher müsste die korrekte Gegenüberstellung “Analytics vs. Advanced Analytics” heissen. Hier ist der Unterschied, dass Analytics vor allem deskriptiv (“Was ist passiert?”) oder teils diagnostisch (“Warum ist etwas passiert?”) analysiert, während Advanced Analytics mittels Machine Learning und Cognitive Computing auch prädiktiv (“Was wird passieren?”) oder präskriptiv (“Wie ist zu reagieren?”) analysiert.

Data Science vs. Data Engineering

Wie im Prozess erwähnt, ist Data Engineering die Akquise, Anbindung von Daten, das aufsetzen und pflegen von Datenbanksystemen und die Einrichtung von Cloud Services. All diese Dinge fallen in den Data Science Prozess in der zur Analyse vorbereitenden Phase. Gibt es nun in Unternehmen nur Data Scientiss als Generalisten, fällt Data Engineering oft auch in deren Aufgabenbereich. Optimaler ist jedoch, wenn das Unternehmen eigene Data Engineers hat, welche sich um diesen Aspekt kümmern.

Wie kann man Data Science lernen?

Im generellen gibt es inzwischen eine Vielzahl an Wegen, um Data Science zu erlernen. Dabei ist die Effizienz nicht immer gleich. In theoretischen Kursen wird viel grundlegendes Wissen vermittelt, die praktische Anwendung fehlt hingegen. Wer sich allerdings ohne Vorwissen in praktische Projekte stürzt, begeht teilweise fatale Fehler durch mangelnde statistische Kenntnisse oder Programmierstandards. Folglich lohnt für jeden, der sich ernsthaft für eine Ausbildung im Bereich von Data Science interessiert, eine Mischung aus den nachfolgenden Herangehensweisen.

Universitäre Ausbildung

Die wohl theoretischste Ausbildung findet inzwischen an den Universitäten statt. Mittels Bachelor- oder Masterprogrammen wird Data Science im universitären Kontext gelehrt und folglich auch mit Abschluss versehen. Die Erfahrungswerte über Sinnhaftigkeit einer solch formellen Ausbildung sind bis dato nicht klar, da es sehr junge und experimentelle Programme sind.

Fortbildungen / Zertifikate

Während an der Uni von der Pieke auf gelehrt wird, sprießen inzwischen eine Vielzahl an Fortbildungen oder Zertifikate aus dem Boden, die teilweise horrende Summen für zweitägige Seminare verlangen. Der Vorteil solcher Seminare ist die Vor-Ort-Präsenz und direkte Verfügbarkeit von Ansprechpartnern; die Nachteile die hohen Kosten und die verdichtete Wissensvermittlung. 

Online-Kurse

Online Data Science lernen kann effizient sein, leidet jedoch unter den Nachteilen, dass es keine direkte 1 zu 1 Betreuung gibt und die Kurse meist theoretisch gehalten werden. Der Vorteil ist ganz klar die geringen bis nicht vorhandenen Kosten und die freie Zeiteinteilung. Jede größere MOOC-Plattform bietet inzwischen Kurse zum Thema Data Science an.

Übungsprojekte

Näher an der Praxis sind Übungsprojekte, wie vor allem auf Kaggle zu finden. Hier werden Daten zur Verfügung gestellt und mit einem ganz klaren Analyseziel in einer Art Wettbewerb veröffentlicht. Der Vorteil ist, dass gewisse Teile des Data Science Prozesses sehr intensiv geübt werden können (vor allem Exploration und Machine Learning), andere hingegen komplett wegfallen (Use Case development, Deployment). Dennoch eine gute Ergänzung zu theorielastigeren Teilen wie Kursen und eine gute Möglichkeit, das Wissen berufsbegleitend zu erwerben.

Hands-on Erfahrung

Wer als Data Scientist arbeiten möchte, wird vor allem mit einer Frage konfrontiert werden: “Was für Projekte hast du schon durchgeführt?” Daher ist der Aspekt, praktische Erfahrung zu sammeln, auch das wichtigste für angehende Datenwissenschaftler. Da wir somit auf eine Art Henne-Ei Problem zusteuern (um eingestellt zu werden, braucht man praktische Erfahrung; um Erfahrung zu sammeln, muss man eingestellt sein), empfehlen wir klar auch fiktive Projekte abzuwickeln, um den Data Science Prozess durchzuexerzieren. 

Sei es eine Analyse von Twitterdaten mittels API und Cloud-Infrastruktur, ein Object recognition Algorithmus oder die Klassifikation von Bildmaterial: Wer sich durch den gesamten Data Science Prozess kämpft, macht schnell Bekanntschaft mit üblichen Problemen und kann diese dann selbstständig lösen.

Die einzige Gefahr besteht, dass man sich zu sehr Hals über Kopf in das Thema zu stürzen, ohne grundlegendes theoretisches Wissen. Daher empfehlen wir diese Hands-on Erfahrung vor allem nach oder in Kombination mit einer theoretischen Grundausbildung, um nicht fundamentale Fehler in der Entwicklung von Algorithmen zu machen.

Häufige Fragen zum Thema Data Science

Warum ist Data Science wichtig?

Data Science hat zwei Hauptaspekte, die für Unternehmen und andere Organisation von Bedeutung sind. Einerseits standardisiert es den Datenverarbeitungsprozess durch klar definierte Teilschritte. Dies führt zu besserer, effizienterer und auch durchsichtiger Nutzung von Daten. Andererseits erlaubt es, bisher unerkannte Muster zu entdecken. Dies erlaubt Initiativen in der Prozessoptimierung, Absatzerhöhung oder Erstellung von innovativen Geschäftsmodellen.

Diese beiden Aspekte zusammen mit der Tatsache, dass wir immer mehr Daten produzieren und speichern, wird Data Science immer zentraler werden. Vergleichbar zu klassischen Abteilungen wie dem Controlling oder einer IT wird jedes Unternehmen, jede Organisation sich mit Data Science beschäftigen und als Teil ihrer Unternehmensstrategie etablieren. Vielmehr wird es so tief in die Unternehmensprozesse verankert werden, dass es eine Natürlichkeit ist, auf Daten basierend zu arbeiten.

Wird Data Science in Zukunft automatisiert / Ist AutoML die Zukunft?

AutoML – automatisiertes Machine Learning – zielt darauf ab, viele der Data Science Prozessschritte zu automatisieren. Dies hat zur Folge, dass der Arbeitsaufwand für Datenwissenschaftler erheblich sinkt. Nun schlussfolgern manche, dass dies dazu führt, dass auch die Notwendigkeit für Data Scientists durch diese Demokratisierung der Fachexpertise ebenso sinkt.

Generell denken wir, dass AutoML sicherlich einen Teil der arbeitsintensiven Prozesse vereinfachen wird. Es gibt allerdings einige Aspekte, die ein automatisierter Algorithmus in naher Zukunft nicht übernehmen können wird: Vor allem die Anwendungsfalldefinition und Identifikation von passenden, themenbezogenen Daten istist bis dato eine menschliche Aufgabe. Auch die Interpretation und Ableitung von Wissen aus den Erkenntnissen schafft AutoML in diese Phase nicht.

Zusammengenommen werden einige Aufgaben von Data Scientists automatisiert werden, aber es wird noch genug Aufgaben geben, die sie erledigen müssen. Und bis AutoML die Standardherangehensweise wird, dauert ebenso noch eine Weile.

Kann man Data Science auch ohne Vorwissen / ohne Ausbildung praktizieren?

Wie im vorherigen Kapitel angemerkt, gibt es viele Möglichkeiten, sich im Thema Data Science aus- oder weiterzubilden. Doch kann man auch als Quereinsteiger ohne Vorwissen Data Science betreiben? Generell ist dies möglich, aber mit Abstrichen. Quereinsteiger sind in Data Science sehr häufig. Diese haben jedoch in großen Teilen einen IT- bzw. Programmierhintergrund, was bereits einige Aspekte des Prozesses abdeckt. Die Probleme beginnen in der fachlichen Evaluierung der Algorithmen: Es ist einfach, ein Machine Learning Modell zu trainieren; aber sehr schnell ist dies falsch gemacht und man leitet falsche Erkenntnisse ab.

Folglich empfehlen wir, definitiv die theoretischen Aspekte in Data Science zu beachten und sich in der Theorie von Statistik und ML ausbilden zu lassen, bevor man AI in Produktion einsetzt. 

Beispiele für die Anwendung von Data Science

Beispiele für den Einsatz von Data Science
Beispiele für den Einsatz von Data Science

Genug der Theorie – was sind konkrete Beispiele für die Anwendung von Data Science? Hier möchten wir ein paar Beispiele vorstellen, um die Datenwissenschaft fassbarer zu machen:

Customer Clustering zur Kundensegmentierung im Marketing

Seine Kunden besser kennen zu lernen ist eine der Hauptaufgaben im Marketing und der kundenzentrierten Produktentwicklung. Data Science leistet hier einen Mehrwert, indem es Kunden in Gruppen einteilt, die ähnliches Verhalten an den Tag legen. Dies geschieht mittels Clustering, eine Unsupervised Learning Methode von Machine Learning. Hat man solche Gruppen identifiziert, gilt es entsprechend individuelle Marketingmaßnahmen auszurollen, um somit besser auf die Bedürfnisse der Segmente einzugehen.

Ersatzteilerkennung mittels Bildklassifikation über eine App

Ein Beispiel für innovative Nutzung von Cognitive Computing und KI ist eine App für Ersatzteilerkennung. Mittels Kamera wird ein Bild eines Ersatzteiles aufgenommen, dieses durch Objekterkennung in ein Neuronales Netz eingespeist um somit als Klassifikationsergebnis die Produktnummer zu bekommen. Dies erlaubt eine Bestellung im Shop – einfach, direkt und die Kundenloyalität fördernd.

Predictive Maintenance in Industrie 4.0

Eines der am häufigsten genannten Beispiele für Data Science in der Industrie ist die Vorhersage von Wartung, Predictive Maintenance genannt. Hierzu werden Daten über die Produktion und die einzelnen Maschinen und deren Status genutzt, um eine möglichst genaue Vorhersage zu treffen, wann eine Wartung nötig ist. Das Ziel ist es, die Zeit zwischen Wartungen zu maximieren um Stillstand möglichst zu reduzieren, während man aber Zusammenbrüche von Maschinen vermeidet. Methodisch wird Machine Learning, vor allem Supervised Learning, eingesetzt.

Automatisierte Heizvorhersage für Wohnungen (Internet of Things)

Ein Beispiel für Data Science und AI aus dem Feld von Smart Technology, spezieller Smart Buildings als Variante von IoT, ist eine automatisierte Anpassung von Heizungen. Mittels verschiedenster Metriken über die Welt (Temperatur, Niederschlag, Jahreszeit..), die Wohnung (Dämmung, Energieverbrauch..) und das Verhalten der Bewohner (Arbeitszeiten, Wärmeempfinden..) wird eine Vorhersage generiert, wie warm die Wohnung sein soll – flexibel für Uhrzeit, Wochentag und anwesende Bewohner.

Veröffentlicht am

Internet of things (IoT): Definition, Technologie & Beispiele

Das Internet of things (IoT), auf Deutsch Internet der Dinge genannt, ist ein zukunftsweisendes Konzept inmitten von Fokus-Themen wie Big Data und Data Science. Doch was ist das Internet der Dinge genau? Welche Zusammenhänge hat es zu Big Data? Welche Vorteile erhoffen sich Unternehmen davon und gibt es bereits Beispiele in Industrie, Handel und dem privaten Umfeld für IoT? In diesem Artikel versuchen wir den Begriff “Internet of things” zu definieren, seine Vor- und Nachteile und Beispiele zu zeigen, um das Internet der Dinge transparent und nachvollziehbar darzustellen. 

Inhaltsverzeichnis

Infografik Internet of Things (IoT): Definition, Technologien und Beispiele

Infografik Internet of Things (IoT)
Internet of Things: Definition, Vorteile und Beispiele

Was ist das Internet of things? Definition des Internet der Dinge.

Das Internet der Dinge ist ein Verbund von Daten produzierenden Geräten, die diese Daten über das Internet austauschen oder bereit stellen. Diese Geräte gehen über die uns bekannten Computer und Handys hinaus und beziehen weitere Produkte wie beispielsweise Haushaltsgeräte (z.B. Kühlschränke, Staubsauger, TV), Steuergeräte (z.B. Heizung, Anlagensteuerung), Autos, Sicherheitssysteme (Klingeln, Schlösser) und vieles mehr mit ein. In Summe ist die Idee, dass alle diese technischen Geräte nicht nur eine Funktion erfüllen, sondern mittels Sensorik auch Daten erfassen und diese zur weiteren Verarbeitung zur Verfügung stellen.

Durch dieses Vorgehen gibt es zukünftig neben den Menschen und der Internet-Technologie einen dritten Teilnehmer im Internet: Physische Objekte. Einerseits werden diese Geräte massive Datenmengen produzieren, andererseits müssen auch Wege gefunden werden, deren Bedürfnisse in Punkto Kommunikationsinfrastruktur und Datensicherheit zu realisieren. Dies führt zum Begriff “Internet der Dinge”, da aus rein quantitativen Gesichtspunkten eine solche Technologie durch die Vielzahl an Teilnehmern das Internet natürlich absolut dominieren wird.

Zu guter Letzt beschränkt sich das Internet of things natürlich nicht nur auf die Produktion von Daten. Dieser Schritt ist technologisch einfacher und näher, wird aber nur die Tür öffnen für die Personalisierung von Einzelproduktbasis durch kontinuierliche Anpassung der Geräte mittels Software und Analysen. So ist es denkbar, dass sich bald jeder Raum, jeder Stuhl und jedes Fitnessgerät automatisch auf unsere Bedürfnisse, Ziele und Tagesform einstellt.

Vorteile vom Internet der Dinge

Internet of Things (IoT): Beispiele für Vorteile und Gefahren
Internet of Things (IoT): Beispiele für Vorteile und Gefahren

Doch weshalb ist die Idee von datenproduzierenden Geräten so attraktiv? Das Internet of things ist aus mehreren Gesichtspunkten interessant und bietet viele Vorteile für sowohl Privatpersonen als auch Unternehmen:

  • Data-driven Personalisierung: Durch sehr fein granular erhobene Daten und individueller Auswertung kann das Leben zukünftig viel stärker personalisiert werden (z.B. einzelne Heizzonen im Wohnzimmer, automatische Anpassung von Fitnessgeräten auf Größe, Gewicht, Fitnessstand).
  • Datenvarianz: Da durch das Internet of things eine viel höhere Varianz an Geräten und damit Sensordaten produzieren kann, gibt es eine viel höhere Varianz (Art, Ort, Zeit) an Daten, was zu mehr Möglichkeiten der Analyse führt.
  • Datenmengen: Durch die Vielzahl an Dingen können viel höhere Mengen an Daten produziert werden, was die Aussagekraft von Machine Learning Algorithmen und somit die Analysegenauigkeit stärkt.
  • Effizienz: Durch die bereitgestellten Daten können viele Entscheidungen quantitativ getroffen werden und verringern unnötige Einsätze von z.B. Wartungsteams (Stichwort Predictive Maintenance).
  • Automatisierung: Wenn man die Datenmengen mit entsprechender Analysen kombiniert, kann man direkt und automatisiert Entscheidungen treffen lassen, statt manuelle Prozesse zu integriert. Somit steigt der Automatisierungsgrad von Industrie, Fertigung und persönlichem Leben (z.B. justieren von Fertigungskapazitäten basierend auf Breakdown im Feld).
  • Real-Time: Auch 2020 laufen noch viele Analysen auf Batch-Basis, also dem Sammeln und dann gemeinsamen Verarbeiten der angesammelten Daten. Das Internet of things wird die Landschaft sehr stark in Richtung Real-Time Big Data Analytics verändern, da Daten zahlreicher, unmittelbarer und direkter zur Verfügung stehen.

Kritik und Gefahren von IoT

Selbstverständlich gibt es auch beim Internet der Dinge mögliche Probleme und Gefahren. Je nach Gerät das integriert werden soll, müssen vorab intensive Überlegungen angestellt werden, wie man Risiken und Aufwände minimieren kann. Gleichermaßen sollte man sehr wohl überlegen, ob das Device ein IoT-Device werden muss – denn als Holzhammermethode alles an das Internet of things anzubinden ist auch nur eine schlechte Lösung. Im Folgenden wollen wir noch kurz Kritik und mögliche Gefahren am IoT darstellen.

Datensicherheit

Als absolut zentrales Thema von IoT ist die Datensicherheit. Das Problem lässt sich einfach am Beispiel Fitnessarmbänder illustrieren. Wenn Bewegungsdaten aufgezeichnet und diese transferiert werden, sind dies hochsensible Daten. Wann jemand ausser Haus ist – im besten Fall auch noch Real-Time – kann ein sehr gefährliches Gut sein. Aber auch schon generell die GPS-Koordinaten verraten viel über einen Mensch. Von sozio-ökonomischen Status über Alter gibt es viele Attribute, die sich von diesen Daten ableiten lassen. Zusammen ist sehr schnell erkennbar, dass die durch IoT-Geräte produzierten Daten einer sehr hohen Schutzbedürftigkeit belangen. Dies ist aber nicht immer im Fokus der Entwickler der Produkte und Anwendungen, weshalb sowohl Konsumenten als auch industrielle Anwender in Gefahr laufen, Datenlecks in ihrer Umgebung einzuführen.

Netzwerksicherheit

Während der erste Gefahrenpunkt von IoT sich auf die Privatsphäre des Anwenders bezieht, ist das Gegenstück dazu die Sicherheit der Netzwerke über diese kommuniziert wird. Wenn sehr viele unzertifizierte Geräte in Netzwerke eingeloggt werden, um über WLAN Daten zu transferieren, kann es schnell zu Problemen in Überlastung und Sicherheit führen. Als einfaches Beispiel gilt der Fall, falls ein Gerät einem Hackerangriff zum Opfer fällt. In dem Moment würde der Eindringling nicht nur Zugriff auf einen Computer bekommen, sondern könnte ein Botnet über ein weit verbreitetes Netzwerk an physischen Geräten generieren. Noch relevanter ist schließlich die Netzwerksicherheit im Industrial Internet of Things, also der Industrie, da hier schnell sehr große finanzielle Ausfälle oder sogar Lebensgefahr besteht.

Technologieeinsatz über Businesswert

Ein Problem, das sich nicht auf die Sicherheit, sondern eher auf den Erfolg und somit den return of investment (ROI) von IoT fokussiert, ist die Gefahr das Internet der Dinge zu nutzen nur damit es genutzt wird, egal wie sinnvoll es ist. Hier steht die Technologienutzung im Vordergrund, statt einen durchdachten Business Case umzusetzen. Dies führt zu erhöhten Kosten, erhöhter Umweltbelastung und ein Swamping von Netzwerken und Datenbanken. Folglich sollte jedes Unternehmen eine klare Idee über die Wirtschaftlichkeit und Auswirkung ihres Use Cases haben, bevor sie sich in die IoT-Landschaft begeben.

Ausfallsicherheit

Wenn das Internet of things etabliert ist, werden auch die verbundenen Geräte zum neuen Standard werden. Umso integrierter das IoT-Konzept in technische Geräte ist, umso weniger ist es in den Köpfen der Anwender. Daher wird in wenigen Jahren die Konnektivität nicht mehr ein Sonderfall sein, sondern Normalität. Dies führt auch zu der Anforderung, dass die Technik entsprechen ausfallsicher sein müssen, da sich die Unternehmen und Privatanwender darauf verlassen werden. Weiterhin werden viele Geräte das Internet benötigen um überhaupt ihre Funktion zu erfüllen. Bricht die Verbindung zu diesem ab, wird auch das Gerät seine Funktion verlieren.

Energieverbrauch

Ein weiterer ökologischer Faktor nebst der Wirtschaftlichkeit und Datenmengenproduktion ist der Energieverbrauch der IoT-Devices. Durch Konnektivität und höhere Leistungsanforderungen wird ein höherer Energieverbrauch nötig. Multipliziert mit der Idee, dass es hunderttausende von Geräten in das Internet der Dinge integriert werden sollen, ist dies eine sehr viel höhere Energiebelastung. Zusammen mit der Annahme, dass nicht jedes IoT-Gerät einen sinnvollen Einsatz erfahren wird, muss dieser Faktor langfristig in Betracht gezogen werden. 

Das Internet of things, Smart Home, Big Data und Data Science – Begriffsdefinition und -unterscheidung

Leider sind die meisten Begriffe nicht immer trennscharf. Daher versuchen wir hier die Begriffe Internet of things, Smart Home, Big Data und Data Science zu unterscheiden, um den unterschiedlichen Fokus zu definieren.

Wie beschrieben ist das Internet of things die Anbindung von physischen Geräten an das Internet. Ein Subset dieser Geräte sind eben Elektronikartikel, die im Heimbereich eingesetzt werden. Ein anderes Subset wären beispielsweise konnektierte Geräte in der Industrie. Daher ist der Smart Home Bereich ein Teilbereich des Internets der Dinge.

Mit Big Data verbindet das Internet of things der Aspekt der Datenproduktion und Bereitstellung. Vor allem die verschiedenen Merkmale von Big Data kommen hier zur Anwendung: Volumen, Geschwindigkeit, Varianz, Qualität, Wert – all diese Attribute sind von Relevanz, wenn man an die IoT-Sensorenlandschaft denkt. Daher produziert das Internet der Dinge Big Data.

Wenn die Daten produziert sind, hilft es selbstverständlich nichts, wenn sie nicht weiter genutzt werden. Hier kommt Data Science mit seinem Teilgebiet des Machine Learning ins Spiel. Indem die produzierten, großen Datenmengen auf Muster untersucht, automatisiert verarbeitet werden, kann die Effizient gesteigert oder die Personalisierung erhöht werden. Data Science ist also die Erarbeitung der Vorteile des Internets der Dinge – um dann auch positive Effekt spüren zu lassen.

IoT Technologien & Plattformen

Internet of Things (IoT): Ein Beispiel für Infrastruktur und Technologien
Internet of Things (IoT): Ein Beispiel für Infrastruktur und Technologien

Da sich der IoT-Markt sehr schnell bewegt und ändert, möchten wir hier nur skizzenhaft drei mögliche Realisierungen für IoT Technologie aufzeigen. Von einer eigens konstruierten Lösung basierend auf einem Kafka Stream und einer Cassandra Datenbank mit python als Analysebasis über eine Cloud Computing Realisierung, beispielhaft dargestellt durch Amazon Web Services, bis hin zu spezialisierten Verticals, also einer proprietären Softwarelösung die über alle Ebenen arbeitet (als Beispiel “Siemens Mindsphere”) sollen diese Beispiele eher als Blaupausen dienen. Es ist auf keinen Fall eine vollständige Liste, noch ist es ein detailliertes Architekturbild, sondern gibt einen ersten Einblick in nötige Verarbeitungsebenen.

Edge Devices & Gateway Layer

Die Datenproduktion / -aufnahme findet auf den Edge Devices, also z.B. einem Auto, dem Kühlschrank, dem Mobiltelefon oder dem Thermostat statt. Diese Ebene ist auch heute bei vielen elektronischen Geräten zu finden, unterscheidet sich aber vom Internet of Things indem die Daten maximal lokal vom Gerät selbst verarbeitet werden oder manuell ausgelesen werden müssen (z.B. über USB). Das Dateiformat, die Übertragungsrate und gegebenenfalls Vorverarbeitung ist sehr individuell vom Anwendungsfall. Generell folgt dem Edge Device noch ein Edge Gateway, also die Verbindung zum Internet, in Form von Routern oder Access Points, aber auch spezialisierte Hardware wird eingesetzt (z.B. Industrie 4.0 / IIoT).

Transmission Layer

Die produzierten Daten müssen im Anschluss vom Edge Gerät zur Weiterverarbeitung transferiert werden oder Daten / Modelle von dem Anbieter auf das Gerät stattfinden können (Operationalisierung / Deployment). Folglich benötigt man eine Datentransferebene, die je nach Anwendungsfall unilateral oder bilateral funktioniert. Implementierungen können Data Engineers beispielsweise auf API Schnittstellen oder Streaming, wie z.B. Kafka basieren. Auch Cloud-Services wie zum Beispiel AWS IoT oder die Implementierung einer Azure REST API kommen in diesem Schritt zum Einsatz. Als Protokoll etabliert sich auch MQTT immer mehr.

Storage Layer

Die Datenspeicherung ist wieder individuell abhängig vom IoT Gerät und dem Anwendungsfall. Von temporären bis persistent gespeicherten Daten, von Millisekundengenauigkeit bis einem Monatlichen Datenpunkt und strukturierten oder unstrukturierten Daten kann es alle Implementierungen geben. Zum Einsatz kommen neben klassischen Datenbanken wie zum Beispiel SQL-Datenbanken kommen Big Data Technologien wie NoSQL (z.B. MongoDB), Hadoop oder Cloud-Technologien wie zum Beispiel AWS S3. 

Processing & Analytics Layer

Die erfassten Daten werden schließlich durch eine Bandbreite an Möglichkeiten ausgelesen und von Data Analysts und Data Scientists weiterverarbeitet. Dies können einfache Analysen und Visualisierungen wie zum Beispiel mittels PowerBI oder Tableau sein, aber selbstverständlich auch Advanced Analytics mittels Natural Language Processing, Machine Learning und weiteres. Die Technologien die zum Einsatz kommen sind die gesamte Bandbreite an Data Science Tools, beispielsweise python, KNIME oder Cloud-basierte Services wie AWS Glue und AWS Kinesis Analytics oder Azure Machine Learning.

Application Layer

Die Anwendungen die im IoT-Umfeld eine Rolle spielen sind sehr variabel. Von einfachen Auswertungen auf Dashboards über die Bereitstellung der Daten in anderen Systemen bis hin zu automatisierten Machine Learning Prozessen ist alles möglich. Als Beispiele können Visualisierungssoftwares wie Tableau oder PowerBI, Cloud-Services als connectoren wie Azure Logic App oder andere verarbeitende Systeme auf Artificial Intelligence-Basis genannt werden.

Beispiele für Anwendungen des Internet of things

Internet of Things (IoT): Beispiele für Smart Home, Industrie 4.0 und Personal Smart Devices
Internet of Things (IoT): Beispiele für Smart Home, Industrie 4.0 und Personal Smart Devices

Soviel zur Theorie. Doch wie sieht es mit praktischen Anwendungen von IoT aus? Hier möchten wir sowohl Anwendungsfälle als auch direkt existierende Produkte vorstellen, die ins Internet of Things-Konzept fallen.

Das Smart Phone

Während im grundlegenden Konzept des Internet of things die verbundene Geräte sehr klein und mit geringer Prozessorenstärke ausgestattet sind, gilt das Smart Phone dennoch in weiten Kreisen als ein ultimatives IoT Device. Es sammelt eine sehr hohe Bandbreite an Daten (GPS, WLAN, Beschleunigung, etc) und stellt diese sehr vielen Services zur Verfügung (Facebook, Google Maps, etc). Da das Smart Phone noch wesentlich mehr kann – also ein richtiges IT-Device ist – würden es manche nicht mehr als IoT-Device sehen. Doch dem ursprünglichen Konzept von verbundenen physischen Objekten folgt es definitiv. 

Die Video-Türklingeln von Ring

Mit Videokamera und WLAN-Zugang ausgestattet erlaubt das kleine Gerät via Mobiltelefon zu überprüfen, wer gerade geklingelt hat. Nebenbei werden die Clips aufgezeichnet und es bringt mittels Bewegungssensor auch eine Portion Home-Security mit. Ein wunderbares Beispiel für das Internet of things – leider auch mit negativen Aspekten, wie Sicherheitsprobleme bei dem Produkt zeigen.

Dash Buttons von Amazon

Mit einem Knopfdruck Produkte nachbestellen ohne eine App zu starten oder sich auf einer Plattform einzuloggen – ein sehr einfacher Use Case für das Internet der Dinge. Über eine W-Lan Verbindung wurde von den programmierbaren Buttons ein Signal an Amazon gesendet, dass das Produkt automatisch geordert wurde. Die Dash Buttons wurden inzwischen von Alexa und automatischer Nachbestellung verdrängt, sind allerdings ein Zeitzeuge für einen einfachen Use Case, wie die digitale und physische Welt sehr einfach verbunden werden kann.

Alexa, Google Home, Siri

Eines der erfolgreichsten IoT-Devices auf dem Weltmarkt sind inzwischen die Virtual Voice Assistants. Alexa, der Vorreiter von Amazon, wird nicht nur zum Wetter und aktuellen Fernsehprogramm befragt, sondern speichert auch Termine, löst Bestellungen aus und weiß sehr genau, wann seine Besitzer Zu Hause sind. Die produzierten Datenmengen erlauben ein sehr genaues Bild vom menschlichen Verhalten zu zeichnen und somit die Personalisierung voran zu treiben.

Moderne Autos von BMW, Mercedes und anderen

Viele Autohersteller schlagen seit wenigen Jahren massiv den Weg in die IoT-Landschaft ein. Hierbei gibt es mindestens drei Anwendungsfelder: Einerseits die Diagnostik und Fehlerbehebung, andererseits das Analysieren von Fahrverhalten und Verkehrsaufkommen und drittens das Bereitstellen von Services wie zum Beispiel personalisierte Navigation. Zwar ist ein Auto ein großes “Thing”, dennoch ein sehr guter Kandidat für das Internet der Dinge.

Digital Twins

Das Prinzip der Digital Twins besagt, dass wir neben einem physischen Objekt auch eine digitale Repräsentation dieses Produkts erstellen und über alle Produktions-, Liefer- und Nutzungsschritte pflegen. Als umfassendes Konzept zeigt es auch sehr starke Kontaktpunkte zum Internet of things, da diese Geräte Daten im Einsatz liefern, womit der Digital Twin angereichert wird. Besonders in der Industrie 4.0 (Industrial Internet of Things, IIot) ist ein Digital Twin beheimatet, um Produktionsfehler, Rückrufe oder Verbesserungsansätze zu entwickeln.

Logistik

Amazon macht es im B2C-Bereich hervorragend vor: An jedem Bestellschritt wird der Kunde über den aktuellen Status informiert – inklusive der Position des Lieferfahrzeugs. Dieses Tracking hat für den Endanwender den klaren Vorteil umfassend informiert zu sein, für Amazon selbst erlaubt es ein sehr feingranulares Supply Chain Management. Indem von e-Commerce über Lagerhaltung, bis in die Logistik zum Kunden alle Prozessschritte Daten produzieren und ausgewertet werden können, können Optimierungen schnell erarbeitet und umgesetzt werden.

Smart Home

Wie bereits in der Begriffsdefinition angesprochen, gibt es eine große Überschneidung zwischen dem Konzept des Smart Homes und dem Internet of Things. Während Smart Home auch ohne Vernetzung funktionieren kann, also rein lokal Daten sammelt, auswertet und entsprechende Aktionen vornimmt, gewinnt das Konzept an Stärke, wenn eine Konnektivität gegeben ist. Typische Beispiele für diese Kategorie sind Thermostate oder Lichtsysteme.

Fitnesstracker und Smart Watches

Ursprünglich waren Fitnesstracker aufgrund der mangelnden Internetverbindung kein IoT-Device. Doch haben sich diese und die “großen Brüder” der Fitnesstracker, die Smart Watches, inzwischen auch technologisch sehr stark weiter entwickelt. Sie sind IoT-Geräte, die inzwischen stark in die Kerbe der Kontrolle von Körperfunktionen (Puls, Schweiß,..) und Selbstoptimierung schlagen.

Predictive Maintenance / Maschinenüberwachung

Ein weiterer Anwendungsfall ist Predictive Maintenance, also die Wartung von Maschinen bevor sie Schaden nehmen. Dies wird meist auf MES Big Data basiert, jedoch gehen manche Hersteller inzwischen dazu über, kleine Sensoren (Bild, Geräusch) an Maschinen anzubringen, um diese Daten direkt zu übermitteln, statt nur auf Produktionsdaten zu vertrauen. Akkumuliert erlaubt dies zum Beispiel ein Dashboard zu kreieren, in dem die Produktionssteuerung verbessert wird, da absehbar ist wie viele und welche Maschinen in Gefahr laufen, kaputt zu gehen.

Personal IoT Devices

Als Fortführung von Smart Watches ist eine Idee, dass auch andere Kleidungsstücke zu IoT-Devices werden. Ein Vorstoss in diese Richtung war die Google Glass, jedoch arbeiten mehrere Unternehmen an Smart Cloth, also Kleidungsstücken, die Daten aufzeichnen und übermitteln. Dies würde eine noch nahtlosere Integration von Mensch und Internet fördern.

Häufige Fragen zum Internet of Things (FAQ)

Warum braucht man das Internet of Things?

Das Internet der Dinge ermöglicht ganz neue Methoden um Verhalten von Geräten und Menschen zu anaylsieren und die Interaktion zu optimieren. Ob vorbeugende Reperatur, Personalisierung oder Fernwartung – es gibt sehr viele Beispele wie IoT die Interaktion zwischen Mensch und Maschine vereinfacht.

Ist IoT durch das Internet ermöglicht?

Ja. Ohne Internet gäbe es die Idee von IoT nicht. Denn das Internet der Dinge als solches kommuniziert mit dem Internet um Daten auszutauschen. Doch gibt es auch Anwendungsfälle, bei denen sich die Kommunikation auf lokale Ebene beschränkt (zum Beispiel Hochsicherheitsbereiche).

Was ist der Unterschied zwischen dem Internet der Dinge und Industrie 4.0?

IoT ist eine Methode bzw. Bestandteil, der in der Industrie eingesetzt werden kann, um “Industrie 4.0” zu erreichen. Somit ist die Industrieanwendung eine Domäne in der IoT angewandt wird, aber es gibt auch viele andere Bereiche als klassische Produktion und Fertigung (z.B. Konsumer-Bereich).

Zusammenfassung Internet of Things

Was ist das Internet of things? Das Internet der Dinge ist ein Verbund an physischen Geräten mittels des Internets. Von Kleinstsensoren über Smart Home Geräte bis zum Auto kann alles die Aspekte eines IoT-Devices erfüllen. Die Idee ist, durch diese Geräte Daten produzieren zu lassen, auszuwerten und entsprechende Optimierungen oder Personalisierungen auszuspielen. Das Ziel ist, in Zukunft fast alle physischen Objekte – vom Stuhl zum Kühlschrank zur Fertigungsmaschine – digital zu erfassen und mit ihnen interagieren zu können. Eine Zukunft, in der Mensch und Daten noch näher zusammenrücken.

Veröffentlicht am

Feature Engineering: Erklärung, Methoden und Beispiele

Eine Spalte mit Daten-Attributen

Als Feature Engineering bezeichnet man die Vorbereitung von Daten für die Verarbeitung in Machine Learning Algorithmen. Dabei ist Feature Engineering mitunter der wichtigste Teil im gesamten Machine Learning Prozess: Nur anhand hochqualitativer Features mit großem Informationsgehalt kann ein Modell mit hohem Erfolg trainiert werden. In diesem Artikel möchten wir Feature Engineering vorstellen, Methoden und Prozesse darstellen und eine Abgrenzung zu anderen Begriffen wie Feature Selection und Feature Extraction treffen.

Inhaltsverzeichnis

Was ist Feature Engineering und wofür benötigt man es? Eine Definition

Als Feature Engineering werden alle Prozesse bezeichnet, bei denen Rohdaten so aufbereitet werden, dass sie direkt von Machine Learning Algorithmen verarbeitet werden können. Die Idee ist, dass man durch Feature Engineering eine bessere Ausgangslage für das spätere Trainieren eines Machine Learning Modells schafft, indem man relevante, aussagekräftige und korrekte Attribute mitliefert.

Die Herausforderung beim Feature Engineering ist es, einerseits keine unnötige Daten weiterzuverarbeiten, andererseits aber auch keine Informationen zu verlieren (Information loss). Ersteres ist relevant durch steigenden Anforderungen an Daten und Infrastruktur (Curse of Dimensionality), zweiteres fördert die Gefahr, die “wahren Gründe” für die Zielvariablen versehentlich auszuschließen.

Insgesamt ist Feature Engineering ein sehr wichtiger Teil in jedem datenbasierten Projekt und fällt in die Kategorie “Data Preparation”. Als Nachfolgeschritt werden entweder aus den kreierten Features bestimmte für den Algorithmus ausgewählt oder man nutzt Algorithmen die diese Feature Selection direkt eingebaut haben (automated Feature Selection).

Methoden und Prozesse im Feature Engineering

Fachwissen einsetzen um optimale Features zu generieren

Bei allen technischen Methoden um passende Features zu engineeren hilft eine Sache immer unterstützend: Fachwissen aus der Domäne bzw. dem Business. Fachwissen hat den Vorteil, vorhandene Attribute gut einschätzen zu können bezüglich Wichtigkeit, erwarteter Datenqualität und Aussagekraft. Daher ist eine der wichtigen Regeln: Mit Fachwissen ist sowohl Qualität als auch Effizienz im Feature Engineering höher.

So gibt es zum Beispiel oft unscheinbare Features, die allerdings zentral zur Unterscheidung von Kunden beitragen. Oft sind dies gewisse Umsatzgrenzen, Einkaufshäufigkeiten, bestimmte Produktkategorien oder ähnliches, was einen sehr großen Unterschied für das Business macht, aber rein anhand der Datenbasis nicht unbedingt erkenntlich ist.

Zusätzliche Datenquellen anbinden

Auch dieser Aspekt ist formell gesehen kein direktes Feature Engineering, zählt für uns aber zum Prozess: Die Identifikation und Anbindung von zusätzlichen Datenquellen. Spricht man im Gedanken des CRISP-DM Prozesses, würde dieser Aspekt eher in “Data Understanding” fallen statt in “Data Preparation”. Dennoch ist er absolut zentral für ein gutes Ergebnis im Machine Learning. Meist sind die einfach zu erreichenden, offensichtlichen Datenquellen nicht unbedingt die wichtigsten, sondern erst durch Miteinbezug von externen Datenquellen wird ein verlässliches Ergebnis erreicht. 

Wenn man einen Data Scientist nach zusätzlichen Datenquellen fragt, gibt es meist eine erste Antwort: Wetterdaten! Dieser Holzhammer wird immer in Predictive Modelling mitgeführt, da doch sehr viele Produkte saisonale Einflüsse haben und es somit oft eine ausschlaggebende Rolle spielen kann.

Attribute in aussagekräftige Features transformieren

Eine der häufigsten Operation im Feature Engineering ist die Transformation von Features in aussagekräftige Werte. Dabei wird ein vorhandenes Attribut genutzt um es in einen sinnvolleren Wert zu interpretieren. In den einfachsten Fällen sind dies Rechenoperationen oder auch IF-ELSE Bedingungen, die basierend auf dem Inhalt in eine Kategorie einordnen.

Ein übliches Beispiel ist die Transformation eines Datums in die seitdem vergangenen Tage. Dies kann entweder an einem fixen Datum ausgerichtet werden oder am Ausführungszeitpunkt der Data Pipeline.

Interaktionen zwischen mehreren Attributen

Eine der grundlegendsten Methoden im Feature Engineering ist die Berechnung von Interaktionen (interaction features). Einfach gesagt heißt das, dass eine Kombination aus zwei oder mehreren Features berechnet wird, um einen inhaltlichen Mehrwert zu schaffen. 

Dabei gelten alle grundlegenden Rechenoperationen (Multiplikation, Division, Summen, Abstraktionen) als Möglichkeit, eine Interaktion zu erstellen. In jedem Fall gilt es auch immer zu überprüfen, ob ein interaktives Feature einen Mehrwert gegenüber den Rohattributen bietet.

Ein klassisches Beispiel für ein Interaktionsfeature das durch Feature Engineering generiert wird ist die Berechnung von Customer Lifetime Value (CLTV). Dabei werden im einfachsten Fall die Anzahl an Bestellungen eines Kunden mit dem Bestellwert multipliziert. Das neu entstandene Feature bezeichnet damit den erreichten Gesamtumsatz mit einem Kunden statt die isolierten Attribute.

Dummy Variablen definieren und hinzufügen

Dummy Coding oder Dummy Variables nennt man Features, die Kategorien oder Text ersetzen, damit der Input für Machine Learning Algorithmen verarbeitbar ist. Dies kann durch binäres Coding (0 oder 1) oder auch eine Distanzmetrik realisiert werden. Doch achtung: Bei manchen Algorithmen (z.B. Clustering) hat eine Dummy Variable durch ihren Split plötzlich eine höhere Gewichtung, da jedes Feature generell gleichgewichtet werden.

Als einfaches Beispiel kann man Kundendaten anführen, in denen der Wohnort angegeben ist. Nun kann man dadurch eine Dummy Variable generieren, ob die Person in einer Stadt oder eher im ländlichen Raum wohnt.

Ungenutzte, unnötige und redundante Attribute entfernen

Nach vielen Transformationen, Erstellung von neuen Features und ähnlichem gilt es vor der Nutzung der Daten noch aufzuräumen. Dazu werden alle ungenutzten, unnötigen und redundanten Attribute entfernt, um einen finalen Datensatz zu erhalten. Arbeitet man hierbei in einem Data Lake speichert man optimalerweise jedes entstandene Datenset (Rohdaten, alle Features, aufbereitete Daten) als distillierte Version zu speichern und entsprechend der Data Governance zu dokumentieren.

Typische Features zur Entfernung sind Identifier, Features die im Falle einer Operationalisierung nicht verfügbar sind oder hoch korrelative Features. 

Begriffsdefinition Feature Engineering

Feature Engineering vs. Data Wrangling: Was ist der Unterschied?

Feature Engineering bezeichnet einen bestimmten Teilschritt, der nach dem eigentlichen Data Wrangling kommt. Data Wrangling bezeichnet die gesamte Verarbeitung und Vorbereitung von Daten für nachfolgende Schritte, während Feature Engineering sich ganz spezifisch auf die Extraktion und Definition von Features für Machine Learning bezieht.

Feature Engineering vs. Feature Selection: Was ist der Unterschied?

Feature Engineering bereitet die Datensätze auf und transformiert die Daten in Features, während Feature Selection dann potentiell ein Subset dieser Features für das Training des Modells auswählt. Das Ziel ist es, die Anforderungen an Daten und Ressourcen (Curse of Dimensionality) zu reduzieren und irrelevante Features zu exkludieren. Es gibt sowohl manuelle als auch automatische (supervised und unsupervised) Methoden um diese Selektion durchzuführen.

Feature Engineering vs. Feature Extraction: Was ist der Unterschied?

Feature Extraction verarbeitet die Attribute, die durch Feature Engineering entstanden sind und kreiert neue Features daraus. Dabei zielt auch Feature Extraction auf die Reduktion der Computational Complexity ab, aber statt einfach Features zu extrahieren wie Feature Selection, versucht es alle Information in eine Kombination von neuen Features zu transformieren.

Feature Engineering vs. PCA: Was ist der Unterschied?

Principle Component Analysis (PCA) ist eine (unsupervised) Methode um Feature Extraction durchzuführen.

Weitere Informationen

Feature Engineering in python

Ob pandas oder pyspark: Feature Engineering ist ein Standardprozess in python. Hier eine vierteilige Video-Serie für einen praktischen Kurs:

Feature Engineering in R

Was panda für python ist, ist dplyr für R. Auch hier ein Video-Tutorial:

Buch zu Feature Engineering & Selection

Wer ausführliche, weiterführende Informationen zum Thema Feature Engineering & Selection sucht, dem sei das Buch “Feature Engineering and Selection: A Practical Approach for Predictive Models” von Max Kuhn ans Herz gelegt. Max arbeitet seit 20 Jahren im Bereich prädiktiver Modellierung und ist Mitglied des Teams rund um R-Studio.

In seinem Buch geht er ausführlich auf die Konstruktion von Features ein und zeigt in mehreren Kapiteln die verschiedenen Methoden und Vorteile der Feature Selection Algorithmen auf. Neben dem umfangreichen Informationsgehalt hat uns vor allem die einfache, sehr praktische Schreibweise des Buches sehr beeindruckt.

Veröffentlicht am

Was ist Data Mining? Definition, Methoden und Tools

Data Mining: Definition, Merkmale und Tools

Einfach gesagt beschreibt Data Mining das Vorgehen, Daten auf Muster und Trends zu untersuchen, ohne vorab zu wissen, wonach man sucht. Im Gegensatz zu anderen Datenanalyse-Projekten gibt es keine Hypothese oder direkte Fragestellung, sondern es wird explorativ ein vorliegender Datensatz untersucht.

Im Gegensatz zu Data Science, was den gesamten Datenprozess betrachtet, fokussiert sich Data Mining daher konkret auf die operative Aufgabe neue Informationen in Daten zu finden. Diese ungerichteten Analysen finden meist Anwendung auf strukturierten Daten, aber auch auf unstrukturierten Daten werden oft in Betracht gezogen. Daher kommt “Big Data” – sowohl in Aspekten des Volumens und der Variabilität – oft zum Einsatz, ist aber weder Voraussetzung noch identisch, denn auch kleine, statische Datensätze können großartige Erkenntnisse beherbergen.

Inhaltsverzeichnis

Infografik Data Mining

Data Mining Infografik
Infografik zu Definition, Merkmale und Tools von Data Mining

Welche Methoden nutzt Data Mining?

Infografik Methoden Data Mining
Data Mining nutzt verschiedene Methoden aus Data Science und künstlicher Intelligenz

Data Mining nutzt eine Bandbreite an Methoden um Daten auf Muster zu untersuchen. Hierbei gilt das Prinzip, dass es keinen festen Prozessablauf für die Analysen gibt, sondern aus dem Methodenbaukasten gemäß Erfahrung und Kreativität des Data Scientists ausgewählt wird. 

Die deskriptive Untersuchung mittels klassischer Statistik ist meist ein erster Schritt, sowohl im Data Mining als auch anderen Aufgaben. Das Herzstück des Data Mining ist jedoch die Anwendung von Machine Learning. Vor allem im Big Data Mining werden Methoden der künstlichen Intelligenz angewandt, um Muster implizit zu identifizieren. 

Hierbei wird meist initial auf Methoden des Unsupervised Learnings zugegriffen. Clustering zum Beispiel erlaubt es, Gruppen mit ähnlichem Verhalten zu identifizieren. Assoziationsanalysen hingegen zeigen auf, welche Ereignisse oft gemeinsam auftreten – das klassische Beispiel von Warenkorbanalysen ist vielen bekannt. Aber auch Ausreißeranalysen (Outlier detection) geben Einblicke in den Umfang, die Varianz und Besonderheiten des Datensatzes.

Aber auch Methoden des Supervised Learnings finden im Data Mining Anwendung. Die Klassifizierung (Classification) ordnet Daten in Kategorien ein, während Prediction (z.B. Regression) numerische Werte vorhersagt. Diese Methoden finden allerdings meist in einem späteren Schritt Anwendung, wenn man schon eine genauere Vorstellung hat, welche Muster genauer analysiert werden sollen.

Wer betriebt Data Mining?

Man kann im Prinzip drei Stufen der Data Mining Maturität innerhalb eines Unternehmens unterscheiden – und dementsprechend auch welche Rolle sich dem Thema widmet. Die erste Stufe ist die “Neugier”-Stufe. Diese Stufe nehmen sehr viele Personen und Unternehmen natürlich ein: Wenn man z.B. Saleszahlen präsentiert, ist normalerweise der erste Versuch zu verstehen, wie sie sich verhalten und wieso. Diese Neugier nach einem Verständnis bleibt aber in dieser Stufe unbefriedigt, weil entweder Zeit, Expertise oder die nötigen Daten fehlen.

Die zweite Stufe im Data Mining ist die prozessuale Stufe. Das Suchen nach Mustern wird oft im Zuge von Initiativen und/oder vorhandener Analysen betrieben. Als Beispiel wäre, dass man beginnt, die Saleszahlen granular feiner aufzuschlüsseln und nach Mustern zu suchen. Vielleicht gibt es unterschiedliche Kundengruppen die sich saisonal unterschiedlich verhalten? Ein exploratives Untersuchen eines Themas oder Gebiets findet in dieser Stufe statt.

Die dritte Stufe ist die Grüne Wiese (Greenfield Approach). In dieser Stufe gibt es Personen oder eine ganze Einheit die ohne Thema oder Vorgabe Daten untersuchen. Die wenigsten Unternehmen “leisten” es sich, Kapazität und Budget in Tätigkeiten zu investieren, bei denen ein ROI komplett unbekannt ist. Daher ist die Grüne Wiese sehr selten, aber wird immer öfter nötig werden, da die oberste Analyticsschicht von Daten sehr schnell erörtert ist. Und dann gilt es, tieferliegende, nicht erkenn- oder erdenkbare Muster zu identifizieren. Dies geht nur mit der Freiheit eines Greenfield Approachs.

Welche Tools werden im Data Mining eingesetzt?

Infografik Data Mining Tools
Es gibt eine ganze Bandbreite an Tools für Data Mining

Es gibt verschiedene Herangehensweisen um operativ Data Mining zu betreiben. Die meisten Data Scientists setzen ihre Algorithmen in den Programmier-/Skriptsprachen python oder R um. Auch Java findet man teilweise, hat jedoch andere Stärken als Machine Learning und Data Handling. 

Während dies Code-basierte Lösungen sind, hat sich zudem ein Markt für GUI-basierte Lösungen etabliert. Hier hat der Nutzer ein Interface, in dem er die verschiedenen Datensätze explorieren und mittels entsprechender Algorithmen analysieren kann. Die häufigsten Vertreter dieser Variante sind RapidMiner, das Freeware Tool KNIME, SAS DataMiner oder IBM SPSS.

Als dritte Methode werden oft Visualisierungstools eingesetzt. Neben grafischen Möglichkeiten von codebasierten Tools (z.B. ggplot2, plot.ly, d3.js) oder den integrierten Visualisierungen von GUI-basierten Tools gibt es auch spezialisierte Software. Neben Tableau, PowerBI, Google Data Studio, MicroStrategy, Qlik gibt es noch viele weitere, die sich auf diesen Bereich fokussieren.

Zu guter letzt ist es tatsächlich auch möglich in rudimentären Tools wie Excel Data Mining – zumindest in den Grundzügen – zu betreiben. Diese stoßen sehr schnell an ihre Grenzen, vor allem wenn es an tiefergehende Machine Learning Algorithmen geht oder es sich um große Datenmengen handelt. Dennoch können sie auch in kleinen Unternehmen schnell eingesetzt werden, um ein grundlegendes Verständnis über die Ausprägungen, Attribute und Inhalte eines Datensatzes zu informieren.

Welche Probleme kann es geben?

Doch wenn Data Mining einfach wäre, würde es wohl jeder machen. Wir sehen drei Hauptkategorien, weshalb tiefergehendes Data Mining nach wie vor selten eingesetzt wird. 

Als erstes müssen entsprechende Daten vorhanden sein. Als “vorhanden” gilt, wenn auf ausreichend Daten (Volume) einfach zugegriffen (Access) werden kann und diese Daten von hoher Qualität (Quality) sind. Wenn eine dieser Annahmen verletzt ist, ist Data Mining schwierig möglich oder ineffizient. Zum Beispiel kann eine auf wenig Werte aggregierte Tabelle nicht sinnvoll gemined werden. Oder der Aussagegehalt der Ergebnisse ist sehr gering, wenn die Qualität der darunter liegenden Daten mangelhaft ist. Das Aufbereiten und Bereitstellen der Daten deckt klassischerweise der Data Engineer ab – nicht der Data Scientist, der sie dann verarbeitet.

Als zweites benötigt Data Mining, vor allem als fortgeschrittene Methode, starke fachliche Expertise. Diese Data Science Fähigkeiten sind auch heute noch selten in Unternehmen weit verbreitet, weshalb deren Kapazität meistens auf Projekte mit direkter abschätzbarem Erfolg konzentriert wird. Wenn Unternehmen allerdings die ersten Gehversuche in Datenanalyse und Data Science betrieben haben, sind die nächsten Schritte oft ganz natürlich.

Als drittes wird Erfahrung benötigt. Es ist sehr einfach, wenn man auf einer grünen Wiese arbeitet, sich in großen Datensätzen mit vielen Metriken zu verlieren. Es gibt nahezu unendliche Möglichkeiten Datensätze zu kombinieren, Interaktionen und Korrelationen zu untersuchen. Ohne Ziel wird auch der Weg oft sehr lange. Von daher gilt es, einerseits ausreichend Erfahrung zu sammeln wann es sich lohnt Spuren zu folgen, andererseits auch Mut zu haben, Vorstösse ohne weiteres abzubrechen, falls sich kein Erfolg einstellt. Am besten wird dieses Vorgehen mittels agiler Methoden, in Daily Standups oder ähnlichem unterstützt, dass der Prozess keine Neverending Story wird.

Beispiele für Anwendungsfälle im Bereich Data Mining und KI

Zusammenfassung

Ich hoffe ich konnte einen guten Überblick über das Thema Data Mining geben. Zusammengefasst sei gesagt, dass Data Mining am Ende nichts weiter ist als Schatzsuche. Mittels viel Erfahrung, spezialisierter Tools und auch einem hohen Vorabinvest gibt es die Möglichkeit, auf Schätze – in Form von Erkenntnissen – zu stossen, von denen man bisher nichts wusste. Diesen Vorabinvest zu tätigen und sich einem solchen volatilen Vorgehen zu öffnen ist allerdings Teil der Kultur einer Data Driven Company und muss erst entwickelt werden. Denn nur wenn diese Aspekte kombiniert werden können – Strategie, Daten und Expertise – ist man erfolgreich im Data Mining.

Veröffentlicht am

Was ist Big Data? Definition, Merkmale und Technologien

Big Data: Definition, Merkmale und mehr

Was ist Big Data? Big Data ist eine Bezeichnung für Daten, die wegen Umfang oder Komplexität nicht einfach verarbeitbar sind. Der Ursprung des Begriffs stammt aus der Zeit als Datenmengen so groß wurden, dass sie nicht mehr lokal – also einem Computer – verarbeitet werden konnten.

Schnell wurde der Begriff “Big Data” um weitere Attribute erweitert: Von verschiedenen Datentypen (z.B. unstrukturierte Daten wie Bilder) über sich schnell ändernde Daten bis hin zum “Wert” des Datensatzes gab es viele Merkmale weshalb Daten umfangreich waren. Zusammen steht Big Data inzwischen mehr für eine neue Ära von Daten und Datennutzung, als nur die Menge an Daten.

Das hat zur Folge, dass der Begriff heute für eine ganze Reihe an Technologien, Algorithmen und Digitalisierungsideen genutzt wird. Von Infrastruktur über Machine Learning bis zu Cloud Computing fällt so ziemlich alles in “Big Data”. Wir möchten diesen Schleier etwas entzerren, indem wir darstellen wie Big Data – also die Daten an sich – definiert werden, welche Technologie man zur Aufnahme, Speicherung und Analyse einsetzt und welche Rollen daran beteiligt sind. 

Inhaltsverzeichnis

Big Data Infografik

Infografik zu Big Data
Big Data Infografik: Definition, Merkmale und Technologien

Merkmale für Big Data: 3 Vs, 4 Vs, 5 Vs, 6 Vs, 10 Vs und mehr

Wie eingangs angemerkt, kam der “Big”-Begriff vom Umfang, der Masse an aufkommenden Daten. Dabei gab und gibt es keine magische Grenze, ab wann Daten als “groß” gelten, sondern es sind vielmehr Merkmale der Eigenschaften von Daten. Daher ist Volumen inzwischen auch nur noch eine eine von vielen Ausprägungen, was alles als “Big Data” definiert wird und welche Attribute dabei zu beachten sind. Als Leitlinie zur Definition von Big Data haben sich die “Vs” etabliert, die von initial 3 Vs auf inzwischen bis zu 10 Vs angewachsen sind.

Big Data Merkmale
Big Data Merkmale anhand der 6 Vs

Volumen: Die Masse an Daten

Big Data Volume: Die Masse der Daten

Das Volumen ist einer der Faktoren, die wohl am grundlegendsten die neuen notwendigen Strategien für die Datenaufnahme und -verarbeitung beeinflusst haben. Dass es inzwischen immer mehr Datensätze gibt, die lokal nicht mehr erfasst, gespeichert oder analysiert werden können, ist auch offensichtlich. Folglich benötigt man rein für die Speicherung dieser Datenmengen neue Systeme, neue Methoden und somit neue Technologien.

Ganz konkret wird oft von “großen” Datenmengen gesprochen, wenn mehrere Gigabyte an strukturierten Daten vorliegen oder mehr als ein Terabyte an unstrukturierten Daten. Ganz offensichtlich nimmt mit zunehmendem “Volume” auch die Notwendigkeit für Speziallösungen zu. Als eines der prominentesten Beispiele gilt wohl der Einsatz eines Hadoop-Systems zur Verarbeitung großer Datensätze auf verteilten Systeme.

Als einfachstes Beispiel für Big Data Volume ist das Internet of Things (IoT). Im Internet der Dinge produziert jedes technologisches Gerät Daten – in großer Menge. Diese Daten von den sogenannten Edge Devices zu erfassen und zu speichern ist nach wie vor eine große Herausforderung für viele in die Jahre gekommenen IT-Infrastrukturen (Legacy Systems).

Variety: Die Varianz der Datentypen

Big Data Variety: Unstrukturierte Daten
Big Data Variety: Unstrukturierte Daten

Neben dem Volumen war die aufkommende Vielfältigkeit (Variety) der erfassten Daten ein Grund, spezielle Datensätze speziell zu behandeln. Schätzungen zufolge sind etwa 80% der Daten unstrukturiert, vor allem Text und Sprache, aber zunehmend auch Bild und Video beinhaltet große Informationen. Während es vor wenigen Jahren maximal in der wissenschaftlichen Forschung Usus war, diese hohe Varianz an Datentypen zu verarbeiten, ist es heute ein Standard.

Bei breiterer Auslegung des Merkmals betrachtet man auch die Vielfältigkeit der Herkunft der Daten. Dass inzwischen nicht mehr nur ERP-Systeme Daten liefern, sondern jede Art von Kanal Daten zur Verarbeitung produziert, ist sehr offensichtlich. Dass diese Systeme auch auf unterschiedlichste Arten die Daten liefern ist ein weiterer Aspekt in der “Big Data” Landschaft. Daher ist die Variety eine der grundlegendsten Veränderungen in der Verarbeitung von Daten.

Ein sehr schönes Beispiel für die Big Data Variety ist der Bereich des Text Minings. Erst durch das Aufkommen von Sozialen Netzwerken gibt es die Möglichkeit, direkt von Nutzern in sehr umfangreicher Zahl textuellen Input zu analysieren. Die wohl bekannteste Methode ist hierbei die Sentimentanalyse, die Texte, Nutzer und Statements auf ihren emotionalen Gehalt – also positiv, neutral oder negativ – untersucht.

Velocity: Die Geschwindigkeit der Daten

Big Data Velocity: Geschwindigkeit in Generierung und Änderung

Das dritte initiale Merkmal war die Geschwindigkeit der Daten, die Big Data Velocity. Von Generierung über Analyse bis zu Änderungen sind alle Aspekte im Datenkreislauf von dieser erhöhten Geschwindigkeit betroffen. Wenn Daten sehr schnell erzeugt werden, wird es auch immer wichtiger, technologische Lösungen gegen Doppeleinträge, Datenbanksperren und Ausfallsicherheit zu finden. 

Neben diese mikroskopischen technischen Level gibt es auch das makroskopische Ansicht der Analyse: Wenn sich Daten sehr schnell anhäufen oder ändern, müssen auch Analysen entsprechend flexibel reagieren können. Dies bedeutet schnelle, umfassende Extraktion, Analyse und Ausspielung der neuen Erkenntnisse. Velocity bedeutet also, dass neue technische Lösungen und Methoden gefunden werden müssen, um schnell generierte Daten zu erfassen und zu analysieren.

Als Beispiel für Big Data Velocity kann man den Datensatz eines Kunden nehmen, der über alle Kanäle eines Unternehmens erfasst und angereichert werden muss. Wenn ein Kunde ein Problem innerhalb der App eines Unternehmens hat, dort Aktionen vornimmt, danach über das Callcenter mit dem Service telefoniert, sollten all diese Daten direkt und sekundengenau erfasst und konsolidiert werden.

Veracity: Die Qualität und Herkunft der Daten 

Big Data Veracity: Verlässlichkeit von Daten
Big Data Veracity: Verlässlichkeit von Daten

Neben den 3 Vs, gibt es auch die Erwähnung von 4 Vs, 5 Vs oder 6 Vs. Als viertes V kam Veracity hinzu. Mit dieser “Verlässlichkeit” der Daten ist gemeint, in welchem Ausmaß der Herkunft und der Qualität der Daten vertraut werden kann.

Als Faktor der Herkunft ist sowohl Dokumentation als auch Vertrauenswürdigkeit der Quelle gemeint. Nur wenn die Daten aus Systemen oder von Personen kommen, die als vertrauenswürdig eingestuft werden, können sie zur Verwendung eingesetzt werden. Im gegenteiligen Fall wären die Daten im schlimmsten Fall frei erfunden und würden somit keinen Wahrheitsgehalt beinhalten.

Die Qualität der Daten ist ein weiterer kontinuierlicher Begleiter in der Welt der Datenanalyse und des Machine Learnings. Nach dem “Garbage in, garbage out”-Prinzip kann eine Analyse nur dann sinnvollen Output liefern, falls der Algorithmus qualitativ hochwertige Daten geliefert werden. Diese Qualität bezieht sich auf Faktoren wie Korrektheit, Relevanz, Komplettheit und andere. Somit qualifiziert die Veracity Daten eigentlich erst für die weitere Verarbeitung.

Als Beispiel für Big Data Veracity gilt die Dokumentation eines aggregierten Datensatzes im eigenen Data Lake. Nur wenn klar ist, aus welchem System die Rohdaten kamen, wie sie auf Qualität geprüft und korrigiert wurden und wie sie aggregiert gespeichert worden sind, sind sie zur weiteren Verarbeitung geeignet. Liegen diese Informationen nicht vor, ist es ein unverlässlicher Datensatz mit zu vielen Unbekannten.

Für noch mehr Details zur Big Data Veracity besucht unseren Artikel “Big Data Veracity: Definition und Beispiele”.

Value: Der Wert der Daten

Big Data Value: Der Nutzen von Daten
Big Data Value: Der Nutzen von Daten

Während die ersten vier Big Data Vs eher technischer Natur sind, kam mit dem fünften V, dem Value (Wert), ein interpretativer Faktor hinzu. Was bringen große Datenmengen, die von hoher Qualität sind, wenn sie keinerlei Nutzen haben? 

Mit zunehmendem technischen und budgetären Aufwand für die Umsetzung für Big Data Infrastruktur und Personal kam berechtigterweise verhäuft die Frage: Brauchen wir diese Daten und Analysen überhaupt? Die Antwort auf diese Frage bildet das Big Data Value ab: Gibt es einen Wert der vorliegenden Daten?

Ganz simplifiziert gesprochen können Daten in unendlichem Ausmaß aufgezeichnet werden. Jedes System – Menschen eingeschlossen – die Daten produzieren, werden in ihrer Datenproduktion nur durch die Abtastrate gesteuert. Wenn ich diese nun mit der Annahme erhöhe, dass feingranulare Daten einen höheren Wert haben, ist dies ein Argument für die zusätzlichen Aufwände für Infrastruktur und Algorithmen. Falls nicht – dann ist das Value eben gegebenenfalls nicht ausschlaggebend genug.

Als Beispiel für die Frage nach Big Data Value können viele generierte Sensordaten gelten. Nur weil ein System im Stande ist Daten in sehr hoher Menge und Geschwindigkeit zu erzeugen, bedeutet dies nicht, dass diese Daten auch eine Relevanz besitzen. Man muss also abwägen zwischen dem Speichern von allen und dem Speichern von nutzbringenden Daten, den sogenannten Smart Data.

Für noch mehr Details zum Big Data Value besucht unseren Artikel “Big Data Value: Was ist das?”.

Variability: Die Varianz der Daten

Big Data Variability: Sich ändernde Daten
Big Data Variability: Sich ändernde Daten

Als sechstes etabliertes V gilt die Variability, also sich ändernde Daten. Während Variety auf die Datentypen eingeht, Veracity auf die Herkunft, beschreibt dieses V die Kontinuität der Datensätze. Ein variabler Datensatz ist von einer hohen Varianz gekennzeichnet, die sich über Zeiträume oder Segmente abspielt. Als verständliches Beispiel gilt eine zeitliche Variability, die Saisonalität.

Wer mit sich saisonal verändernden Daten arbeitet, bei dem verändern sich sowohl die Anforderungen an die Infrastruktur als auch die Verlässlichkeit der Analyse. Speziell im Machine Learning ist die Zeit als Faktor in Zeitreihenanalysen (Time Series Analyses) ausgeprägt. Aber auch für klassische deskriptive Analysen ist eine hohe Varianz von Daten ein großer Faktor: Mittelwerte sind schnell nicht mehr aussagekräftig, wenn sie eine hohe Standardabweichung besitzen. 

Das bekannteste Beispiel für Big Data Variability, also eine hohe Varianz an Daten und Saisonalität, ist vermutlich Weihnachten. Es gibt ganze Unternehmenskategorien die vom Weihnachtsgeschäft abhängig sind und in diesen Monaten mehr Umsatz machen als auf das gesamte restliche Jahr kombiniert. Würde man nun Daten aus solchen Monaten als Grundwahrheit betrachten und die zeitliche Komponente (Saisonalität) ausser Acht lassen, würden schnell falsche Schlüsse in Analysen gezogen werden.

8 Vs, 10 Vs, 42 Vs …

Aber damit nicht genug. Über die letzten Jahre kamen immer mehr V-Listen, von 8 Vs über 10 Vs bis hin zu 42 Vs auf. Diese möchten wir ergänzend hier aufführen, dazu allerdings sagen, dass solche Begrifflichkeiten sehr variabel und nicht in dem Maß etabliert sind, wie die 6 Big Data Vs. Weitere Vs sind zum Beispiel:

  • Visualization: Oft der einzige und daher sehr wichtige Kontaktpunkt zwischen technischer und Business-Seite.
  • Volatility: Egal wie gut man Daten säubert und vorbereitet, kann es immer sein, dass sich plötzlich einzelne Inhalte oder Datenattribute ändern. Dies führt besonders in operationalisierten Modellen zu Problemen.
  • Vagueness: Die Dokumentation und Bedeutung von vorliegenden Daten ist oft sehr unklar.
  • Validity: In der Analyse müssen strenge Regeln (z.B. Voraussetzungen für statistische Tests) beachtet werden, sonst werden Ergebnisse ungültig.
  • Varmint: Umso größer die Daten, umso größer auch das Potential für Probleme in der Softwareentwicklung.
  • Visibility: Die Datenwissenschaft bietet Einblick in komplexe große Datenprobleme.
  • Vivify: Data Science und Big Data sind Methoden und können somit auf alle Arten von Problemen, Prozessen und Optimierungen angewandt werden.
  • Voodoo: Big Data und Data Science werden oft als Voodoo gesehen – wichtig ist eine enge Bindung an Stakeholder und Kunden, um den Wert dieser Arbeit zu vermitteln.
  • Viability: Es ist schwierig, robuste Modelle zu erstellen, und noch schwieriger ist es, Systeme zu bauen, die sich in Produktion bewähren.
  • Vastness: Die Kombination von Volume und Velocity. Mit IoT, dem Internet der Dinge, nehmen beide Merkmale exponentiell zu.
  • Vantage: Big Data und Künstliche Intelligenz ermöglichen uns einen privilegierten, abstrakten Blick auf komplexe Systeme.
  • Vanilla: Auch einfache Analysen und Modelle können einen hohen Wert liefern.
  • Verdict: Immer mehr Menschen sind von Big Data Analytics betroffen. Umso wichtiger sind andere Vs wie Veracity und Validity. 
  • Version Control: Technisch gesehen müssen mit zunehmender Professionalisierung der Analysemethoden auch professionelle Softwaremethoden übernommen werden.
  • Vibrant: Die Neugierde, Daten zu verarbeiten, ist wichtig und bildet die Basis für neue Ideen, Herangehensweisen und Unterstützung bei “data driven” Arbeit.
  • Viral: Wie verbreiten sich Daten unter anderen Nutzern und Anwendungen?
  • Vault: Durch die Nutzung von immer mehr Daten nimmt auch die Nutzung von sensiblen Daten (z.B. DSGVO-relevante Daten) zu. Datensicherheit wird daher immer zentraler.
  • Valor: Man muss den Mut aufbringen, sich in große Datenmengen zu stürzen um auch die großen Probleme dieser Welt angehen zu können.
  • .. und viele mehr

Big Data Technologien und Tools: Ein Auszug

Big Data Technologien: Akquise, Speicherung, Analyse und Operationalisierung
Big Data Technologien: Akquise, Speicherung, Analyse und Operationalisierung

Wie eingangs erwähnt, ist Big Data ein Begriff für ein Konglomerat an Technologien, Methoden und Ideen. Während wir bisher auf die Merkmale von großen Daten eingegangen sind, möchten wir uns im Folgenden auf Big Data Technologien konzentrieren. Durch das Aufkommen an großen Datenmengen und die Bereitschaft zu deren Analyse hat sich in den letzten Jahren die Landschaft an Systemen und Tools massiv verbreitert. Aufgrund dieser schieren Masse können wir hier auch nur einen gewissen Auszug an Technologien vorstellen, die nachfolgenden Auszüge erheben daher keinen Anspruch auf Vollständigkeit.

Datenakquise & ETL

Der erste Schritt in der Datenverwertungskette ist selbstverständlich die Aufnahme, Erfassung und Extraktion von Daten. Herkömmliche Extrakte wie FTP-Datendumps oder ähnliches sind in vielen Fällen nicht mehr praktikabel, da sie sowohl von Volumen als auch Geschwindigkeit nicht mit moderner Infrastruktur Schritt halten können. Folglich haben sich moderne Big Data Technologien entwickelt, die neue Prinzipien realisiert.

Ein Fokus ist die Extraktion von Daten aus einem Quellsystem, gegebenenfalls mit zugehöriger Transformation und Kombination und das folgende Ausspielen in ein Zielsystem. Dieser Extract-Transform-Load (ETL) Prozess wurde und wird häufig mit Code realisiert, was allerdings zu niedrigerer Pflegbarkeit führt, sowie auch jede dieser Data Pipelines neu anlegt. Als Lösung für diese immer häufig auftretende Aufgabe im Bereich der Data Engineers gibt es ETL-Tools wie Talend oder Pentaho. Beide haben sich darauf spezialisiert, eine Vielzahl an Standardkonnektoren zu entwickeln, um möglichst einfach und direkt an Systeme angeschlossen werden zu können. Dies gilt sowohl für das Einlesen als auch Ausspielen von Daten. 

Zwischen diesen Schritten liegt die Stärke dieser ETL-Systeme: Mittels definierter Regeln werden die extrahierten Daten transformiert, gegebenenfalls kombiniert und schlussendlich bereit gestellt. Beide Plattformen haben auch enge Verbindungen zum Thema Data Governance, um beispielsweise Datenqualität zu analysieren und korrigieren, was eine immer höhere Relevanz in jeder Data-Driven Company einnimmt.

Auf der anderen Seite spielt die Geschwindigkeit von Big Data, also die Velocity, eine immer größere Rolle. Während vor ein paar Jahren Updates “über Nacht” der Standard waren, leben wir in einem Zeitalter in dem wir auf Millisekunden Basis, also Real-Time, Daten erheben und verteilen möchten. Dies gilt sowohl für die Akquise von Daten, als auch für die Verteilung an weiterverarbeitende Systeme wie Machine Learning Modelle oder Visualisierungen. Dafür wurden Stream-Plattformen wie Kafka oder Spark entwickelt, die dem noch immer herkömmlichen Batch-Processing mit einer Kette an Daten-Events entgegen treten, um sie kontinuierlich zur Verfügung zu stellen.

Datenspeicherung

Sind die Daten akquiriert, müssen sie auch in einer Datenbank persistiert werden. Klassische SQL-basierte relationale Datenbanken schaffen es in der Big Data Umgebung nicht mehr mitzuskalieren. Als Lösungen wurden verteilbare “Not only SQL”-Systeme entwickelt, namentlich als Beispiele MongoDB oder Cassandra. Diese Infrastrukturen lassen sich vertikal skalieren, also auf viele verschiedene Server verteilen, um große Datenmengen abzudecken. Da dabei SQL-Zugriffe erhalten bleiben, erlauben diese Systeme einen sehr komfortablen, direkten und auch analytischen Zugriff für Konsumenten.

Als Alternative zu SQL-basierten Systemen hat sich das Hadoop Ökosystem entwickelt. Apache Hadoop ist ein auf Googles MapReduce Algorithmus basierendes Dateisystem, das massive, parallele Prozessierung von Anfragen erlaubt. Genauer wird es in drei Schritten realisiert: Zuerst werden Daten in das Hadoop Distributed File System (HDFS) geladen, dann mittels MapReduce-Operationen parallel verarbeitet, um die Ergebnisse wieder über HDFS auszuspielen. 

Als dritten Weg, große Datenmengen zu handhaben, haben sich Cloud Services herauskristallisiert. Als Beispiele seien hier die AWS S3-Infrastruktur oder Google Big Query genannt. Diese und andere Dienste zeigen ihre Stärke einerseits in der serverless Struktur die eine nahtlose Skalierung erlaubt, andererseits in ihrer nahen integration zu vorgelagerten oder nachgelagerten Big Data Prozessen (z.B. ETL, Machine Learning, Visualisierung) innerhalb ihres Ökosystems.

Datenverarbeitung, -analyse & Machine Learning

Kommen wir zum Herzstück jedes Big Data Environments. Denn Unmengen an Daten, die sauber erfasst und gespeichert sind, müssen auch weiterverarbeitet werden, damit sie einen Mehrwert stiften können. Hier sind in einem großen Prozentsatz noch Programmiersprachen im Einsatz, da sie die feinste Steuerung der Prozesse erlauben. Betrachtet man beispielsweise einen einfacheren Verarbeitungsprozess, nämlich das Bereitstellen von vorbereiteten Daten zum Abruf via API oder ähnlichem, kommt meist der Allrounder Java zum Einsatz.

Umso weiter man sich allerdings von klassischer Softwareentwicklung wegbewegt, umso näher kommt man an spezialisierte Datensprachen wie python oder R. Diese sind durch ihre einfache Paketbasierung in der Lage, eine umfangreiche Bibliothek an Analyse und KI Algorithmen bereit zu stellen. Das Trainieren von Machine Learning Modellen ist somit auf die Parameteroptimierung konzentriert statt auf die Implementierung der Algorithmen. Zusätzlich kommen immer mehr spezialisierte Sprachen wie Scala oder neuerdings Julia auf den Markt, die noch mächtiger im Umgang mit großen Datenmengen sein sollen.

Neben diesem “Handwerk” hat sich allerdings auch eine Schiene der GUI-basierten Datenverarbeitungsprogramme entwickelt. Diese sollen den gesamten Datenkreislauf vereinfachen, indem sie modulare, konfigurierbare Bausteine zur Verfügung stellt, die vom Nutzer dann nur mittels Interface angeordnet und angepasst werden müssen. Der Vorteil ist selbstverständlich die niedrigere Einstiegshürde und die höhere Reproduzierbarkeit des Prozesses, der Nachteil die niedrigere Granularität und geringere Kontrolle über Details der Vorgänge. Beispiele hierfür sind die Freeware KNIME oder das kommerzielle Produkt RapidMiner.

Als dritte Schiene in der Datenverarbeitung haben sich Cloud-Anbieter etabliert. Lösungen wie Azure Machine Learning oder Google AutoML bieten inzwischen einen guten Zugang für Laien, während sie mächtige Konfigurations- und Erweiterungsmöglichkeiten für Experten bereitstellen. Die Kombination von niedriger Hürde mit guter Granularität der Einstellungen und der Hinblick auf vollautomatisierte Machine Learning Optimierung (AutoML) lässt darauf schließen, dass diesen Lösungen nach und nach die Zukunft in der Bandbreite der Anwendung gehören wird. 

Operationalisierung & Datenvisualisierung

Die Daten sind akquiriert, gespeichert und verarbeitet. Im letzten Schritt müssen die Daten, Analysen oder Modelle aber noch ausgespielt werden. Entweder als direkte Datenlieferung, als Schnittstelle für andere Kanäle oder als Visualisierung der Ergebnisse für Konsumenten, also interne oder externe Kunden. 

Ein Hauptthema ist das Bereitstellen von Analyseergebnissen bzw. die Anbindung von trainierten Modellen. Hierzu gibt es inzwischen eine Vielzahl an Lösungen, die erlauben Daten zu übermitteln und die entsprechenden Ergebnisse zurück zu bekommen. Als ein Beispiel gilt Docker. Mit dieser Lösung werden Container erstellt, die nicht nur das Analysescript und/oder Modell beinhalten, sondern auch alle dazu notwendigen Pakete, um das Script exakt wie entwickelt auszuführen.

Als Alternative – oder Kombination – werden direkt APIs erstellt und für andere Anwendungen bereitgestellt. Diese Strategie ist sehr häufig in Cloudumgebungen zu finden. Beispielsweise Amazon API Gateway oder Google BigQuery haben es sich innerhalb ihrer Domäne zur Aufgabe gemacht, nicht nur Daten zu speichern und Analysen zu entwickeln, sondern eben diese Erkenntnisse auch wieder auszuspielen.

Der häufigste Weg, verwertete Daten auszuspielen sind jedoch nach wie vor Visualisierungen. Die meisten Unternehmen befinden sich 2020 auf einem Stand der Digitalisierung, auf dem eine umfangreiche, nutzer-zentrische Visualisierungslandschaft noch in weiter Ferne ist. Doch Tools für das Vorgehen gibt es zu genüge: Von Tableau über PowerBI, MicroStrategy, Kibana zu IBM Cognos und vielen mehr haben sich immer mehr Visualisierungstools in der Big Data Landschaft etabliert, die einerseits sehr große Freiheit in der Gestaltung der Grafiken erlauben, andererseits eine Vielzahl an Konnektoren zu Daten- und Analyticsquellen bereitstellen. Die Herausforderung ist es nach wie vor eher, Daten bereit zu stellen und durch Analysen und Darstellungen “actionable Insights” – also Erkenntnisse, die nächste Schritte ableiten lassen – zu vermitteln.

Big Data Analytics: Die Analyse der Datenmengen

Im Prinzip gibt es drei Ansatzpunkte der Vs, um durch Big Data neue Erkenntnisse zu etablieren. Einerseits und bereits mehrfach angesprochen, ist der meist einzige und auch direkte Weg zu Stakeholdern die Visualisierung. Die Grundlage für die Wichtigkeit ist das Big Data Value: Wie können wir Daten vermitteln, damit Business Stakeholder “actionable Insights” erhalten. 

Im Hintergrund steht klassische deskriptive Statistik und Business Intelligence. Dennoch gilt es auch solche “einfachen” Analysen nicht zu verachten. Zum einen sind sie die Basis für weitere Methoden, zum anderen ist es eine Kunst, mit einfachen Mitteln aus großen Datenmengen wichtige Erkenntnisse zu extrahieren. Dass dies schon lange ein relevantes Thema ist, sieht man daran, dass die meisten Firmen inzwischen Analytics oder Intelligence in einer Form etabliert haben. Nur die darunterliegende Technologie ist aufgrund des Volumen der Daten etwas anders geworden.

Machine Learning / Künstliche Intelligenz

Allerdings gibt es auch weitere Methoden, die bisher nicht herkömmlich genutzt wurden. Die erste Assoziation mit Big Data Analytics ist selbstverständlich das Machine Learning. Maschinelles Lernen ist ein Teil des Gebiets der künstlichen Intelligenz – kurz KI – und basiert auf statistischen Methoden, die schon lange etabliert sind. Doch erst durch die großen Datenmengen – das Big Data Volume – ist es möglich, diese Methoden effizient und nachhaltig anzuwenden.

Im Machine Learning, dem Herzstück der sogenannten Advanced Analytics, unterscheidet man zwischen drei Kategorien. Das Supervised Learning folgt dem Prinzip, dass man Trainingsdaten zur Verfügung stellt (z.B. Bilder sind in Kategorien geordnet) und diese einem statistischen Modell gelehrt werden. Ob dieses Modell nun eine einfache Regression, ein Entscheidungsbaum oder ein Neuronales Netz ist, ist im Endeffekt irrelevant – denn alle Methoden lernen eine Gewichtung der verschiedenen Attribute um möglichst oft die richtige Kategorie zu “erraten”. Hat man ein solches Modell mit den Trainingsdaten trainiert, werden neue Daten auf das Modell gelegt um zu validieren, wie gut es unterscheiden kann – die sogenannte Testphase.

Die zweite Kategorie im Einsatz von Artificial Intelligence in Big Data Analytics ist das Unsupervised Learning. Diese Methoden bekommen im Gegensatz zum Supervised Learning keinerlei Informationen bereit gestellt über “richtig” oder “falsch”, sondern optimieren inhärente Kategorien (z.B. wie ähnlich sind sich Kundengruppen) oder erkennen repetitive Muster (z.B. Warenkorbanalysen). Genauer spricht man hier meist von den Bereichen Clustering (Gruppierung ähnlicher Daten), Assoziationsanalyse (Erkennen von Regeln), Ausreißererkennung und Dimensionsreduktion. Alle Algorithmen haben gemein, dass sie ohne “Wissen” über Umwelt, Ergebnis oder Wahrheit, sondern rein datenbasiert agieren.

Die dritte formal geführte Kategorie ist das Reinforcement Learning (Bestärkendes Lernen). Hier interagiert ein Agent (ein Programm) mit einem Environment (einer Umgebung, repräsentiert durch Entitäten, die Effekte auslösen). Das Ziel des Agenten ist es, ein gewisses Ziel (optimal) zu erreichen. Dazu stehen ihm Aktionen zur Verfügung. Ein einfaches Beispiel wäre ein Staubsauger-Roboter, der zurück zu seiner Ladestation möchte, aber gegen die verschiedenen Hindernisse in einer Wohnung kämpfen muss. Seine Handlungsmöglichkeiten sind Bewegungen und Drehungen, sein Ziel ist die Minimierung der Zeit, das Environment ist repräsentiert durch die Sensoren des Roboters. Schon alleine an dieser kleinen Aufzählung merkt man, dass Reinforcement Learning erheblich aufwendiger ist als andere Machine Learning Methoden. Von daher sind diese meist auch nur in der Forschung eingesetzt, wenig in realen Produkten, da der zu implementierende und testende Aufwand meist nicht einem effektiven Nutzen gegenüber steht.

Beispiele für den Einsatz von Big Data bei Kobold AI

Streaming Analytics

Eine weitere Besonderheit im Big Data Analytics ist On-Stream Analytics. Dieses Herangehen erlaubt es, Daten bereits zu analysieren, bevor sie wie oben beschrieben in einer Datenbank persistiert werden. Folglich gewinnt man bereits Einblicke in die Daten, bevor sie gespeichert – und dementsprechend extrahiert, analysiert und das Ergebnis weiterverarbeitet – wurden. 

Das attraktive an diesem Vorgehen ist einfach gesprochen die Schnelligkeit der Ergebnisse im Vergleich zu herkömmlichen Big Data Analytics Methoden. Sofortige Analyse von generierten Daten erlaubt eine sofortige Reaktion in besonders kritischen Bereichen wie beispielsweise der Betrugserkennung einer Bank oder dem Infrastruktursicherheitsbereich großer IT-Unternehmen. Aber auch Marketing kann von direkter Kundenverhaltensanalyse profitieren, um beispielsweise direkt passende Empfehlungen in Form von Produkten auszuspielen.

Beteiligte Rollen in der Landschaft großer Daten

Dieser Artikel hat in Summe dargestellt worum es bei Big Data geht, wie die Infrastruktur dahinter aussieht und welche Analysemethoden man damit durchführen kann. Was fehlt – und darauf gehen wir in den nächsten Absätzen ein – sind die Rollen. Big Data Jobs werden immer zahlreicher und die wenigsten Firmen finden gewünschte Profile in ausreichender Menge. Daher eine kurze Kategorieübersicht über spezielle Rollen, die man in data-driven Organisations findet.

Data Architect Aufgaben

Der (Big) Data Architect, je nach Fokus auch Business Architect, Solution Architect oder Cloud Architect genannt, kümmert sich um die Planung der Infrastruktur. Seine Aufgaben umfassen:

  • Definition der beteiligten IT-Systeme und einer Lösung für das Vorhaben
  • Einbettung des Vorhabens in die IT-Landschaft des Unternehmens
  • Erarbeitung und Umsetzung des Sicherheits- und Zugangskonzepts
  • ggf. Erarbeitung von Datenmodellen und deren Einbettung in Data Governance-Konzepte
  • ggf. Aufsetzen der Infrastruktur zur Inbetriebnahme

Big Data Engineer Aufgaben

Die Aufgabe des Data Engineers, auch Big Data Engineer, Cloud Engineer oder Software Engineer betitelt, ist das Bereitstellen von Daten für die weitere Verarbeitung. Genauer:

  • ggf. Aufsetzen der vom Architekten definierten Infrastruktur, v.a. in einer Cloud-Umgebung wie Microsoft Azure, AWS oder Google Cloud
  • Management und Pflege der eingesetzten Big Data Infrastruktur, Datenbanken und Clustern
  • Erstellen von Pipelines um existierende Daten zwischen Systemen zu befördern und ETL-Prozesse zu etablieren
  • Neudatenakquise via APIs, Crawling oder ähnlicher Methoden
  • Deployment / Operationalisierung von Machine Learning Modellen und anderen Datenprodukten

Für noch mehr Details zum Rollenbild des Big Data Data Engineers besucht unseren Artikel “Data Engineer: Beschreibung, Aufgaben, Tools und Gehalt”.

Data Scientist Aufgaben

Als Data Scientist deckt man prinzipiell den gesamten Big Data Datenkreislauf ab. Von der Identifizierung des Datenpotentials über Identifikation der Datenquellen, Anbindung, Analyse und Modellierung bis zum Ausspielen des Mehrwerts ans Business: Als General Data Scientist ist man an allen Schritten beteiligt:

  • Definition Big Data Potential anhand von Use Cases, Consulting zur Umsetzung
  • Identifikation von Datenquellen und möglichen oder nötigen Inhalten
  • ggf. Anbindung oder Erschließen der Datenquellen, wie der Data Engineer
  • ggf. Deskriptive Analyse und statistische Auswertung, wie ein Data Analyst
  • Advanced Analytics, insbesondere Big Data Analytics via Machine Learning Modellierung
  • ggf. Ausspielen der Erkenntnisse via Model Deployment oder Visualisierungen

Weitere Big Data Rollen

Es gibt noch zahlreiche weitere Rollen wie zum Beispiel den Data Analyst, Machine Learning Engineers, einen Data Translator, Data Stewards und mehr. Diese werden allerdings nicht direkt von Big Data als Thema benötigt, sondern sind gegebenenfalls eine Folge des neuen Felds oder waren in ähnlicher Ausprägung bereits bei Unternehmen vorhanden. Daher haben wir auf genauere Klassifizierung dieser Rollen in diesem Artikel verzichtet – aber wir möchten nicht vorenthalten, dass es wesentlich mehr Beteiligte im Big Data Umfeld gibt.

Zusammenfassung

Zusammengefasst können wir sagen, dass der Big Data Hype noch nicht vorbei ist. Wir befinden uns inzwischen in der Phase der Realität: Unternehmen und Menschen haben erkannt, dass die Verarbeitung von großen Datenmengen nicht einfach verschwinden, sondern in Zukunft immer weitere Teile unseres Lebens einnehmen wird. Und je näher sich Organisationen in die Richtung einer Data Driven Company bewegen, umso wichtiger ist es, diese Technologien zu verstehen und deren Effekte abschätzen zu können.

Daher hoffen wir, dass wir mit unserer Big Data Definition, den dazugehörigen Merkmalen, Technologien und Big Data Analytics einen guten Überblick geben konnten, was alles an der den großen Datenmengen hängt. So geht es nicht nur um die Daten selbst, sondern um die größere Idee, dass man mittels Datenanalyse viele neue Ansätze finden kann, ein Unternehmen voran zu bringen. Dazu gehört neben Technologie auch viel Expertise und vor allem ein gewisser Mut, sich auf diesen Weg zu begeben.

Veröffentlicht am

Was ist ein Legacy System? Probleme und Lösungen

Eine alte Schreibmaschine neben einem modernen Laptop

Der Begriff “Legacy System” wird oft synonym für Altsysteme genutzt, die eigentlich ersetzt gehören, aber es aufgrund ihrer Kernfunktionalität noch nicht sind. In diesem Artikel stellen wir die Bedeutung eines Legacy Systems dar, warum solche Altsysteme existieren, ihre Probleme und wie man sie ablösen kann.

Inhalt

Was ist ein “Legacy System”?

Ein “Legacy System”, auf deutsch “Altsystem”, ist einfach gesagt alte Software und/oder Hardware, die noch genutzt wird, aber eigentlich abgelöst gehört. Der Grund für eine Ablösung kann mannigfaltig sein, was das System zum “Erbe” macht ist dass es so tief in die IT-Infrastruktur verankert ist, dass es nicht einfach entfernt oder abgeschalten werden kann. Die Bedeutung des Begriffs beruht dabei auf den Begriffen Erbe, Hinterlassenschaft oder auch Altlast als Metapher für negative Präsenz des Altsystems.

Viele Systeme die früher das Herzstück des Unternehmens waren, wie beispielsweise eigene e-Commerce Software, Kundenmanagement-Systeme oder Logistikplanung, sind nach vielen Jahren im Einsatz überholt. Oft geht es vor allem um Skalierbarkeit, Konnektierbarkeit, Sicherheit und Pflegeaufwand, weshalb ein solches System abgelöst werden soll.

Mit zunehmender Entwicklung der Technologie (vgl. Cloud Computing, Big Data, etc) stellt sich auch oft die Frage, welche Systeme mitwachsen können – und welche nicht. Letztere nennt man Legacy Systeme und diese werden üblicherweise so lange mitgeführt, bis eine Ablösung möglich ist. Dies ist aber aufgrund der tiefen Verwurzelung dieser Kernsysteme oft ein sehr großer Aufwand.

Warum existieren Legacy Systeme?

Wie bereits skizziert, hatten Legacy Systeme ihre Daseinsberechtigung. Doch durch den Fortschritt der Technologie und oft auch erhöhte Anforderungen macht es oft keinen Sinn mehr, das System weiter zu entwickeln. Doch eine Ablöse ist aus folgenden Gründen oft nicht nicht einfach:

  • Integration: Legacy Systeme sind üblicherweise Kernsysteme, die tief in die IT-Architektur integriert sind. Diese zu ersetzen bedarf sehr sorgfältiger Planung.
  • Never change a running system: Unternehmen sind oft zögerlich “funktionierende” Software abzulösen, selbst wenn die Vorteile klar definiert sind. Hier sind meist die Menschen der verzögernde Faktor, da sie es ja “gewohnt” sind, mit einem solchen System zu arbeiten.
  • Monolithen: Legacy Systeme sind oft als Standalone-Systeme konstruiert worden. Folglich gilt ein “alles oder nichts”-Ablöseverfahren, statt die Erneuerung kritischer Komponenten, wie es in einer Microservices-Landschaft möglich wäre.
  • Kosten: Obwohl Altsysteme sicherlich viele Ressourcen verschlingen, ist der Umstieg und ggf. übergangsweise Doppelbetrieb zweier Systeme wesentlich kostspieliger.
  • Aufwand: Legacy Systeme sind oft in alten, nicht mehr gebräuchlichen Programmiersprachen geschrieben und/oder schlecht dokumentiert. Schnittstellen für neue System zur Migration einzubauen ist schwierig, Personal mit entsprechenden Kenntnissen zu bekommen noch schwieriger. Als besten Beispiel dient das europäische Bankensystem, das noch auf sehr veralteter Software läuft.

Probleme von Legacy Systemen

Ein Serverschrank mit vielen Kabeln
Legacy Systeme verursachen viele Probleme. Deshalb möchte man sie ablösen.

Es gibt eine Bandbreite an Problemen weshalb man Legacy Systeme ablösen möchte. 

Kosten

Eines der Hauptprobleme eines Legacy Systems sind die Kosten für Infrastruktur als auch Pflegepersonal. Während ein hoher Invest einerseits oft der Grund ist, weshalb eine Ablösung abschreckend ist, verursacht das beibehalten des Systems dennoch kontinuierliche Kosten. 

Diese Kosten werden durch die eingesetzte Technologie oft potenziert. Veraltete Infrastruktur, Codegrundlagen und ggf. Programmiersprachen benötigen spezialisierte Ersatzteile und Fachwissen zum Erhalt des Status Quo. Dieser Spezialinvest schlägt sich meist auch in den laufenden Kosten nieder.

Pflegeaufwand

Nicht nur die Kosten für die Pflege, auch der generelle Aufwand von Legacy-Systemen ist meist um ein wesentliches höher als in moderner Architektur. Im Extremfall gibt es keinen Herstellersupport mehr oder bei homebrew in-House Software befinden sich die Ersteller der Systeme nicht mehr im Haus. Schnell muss viel Zeit und Energie investiert werden, um ein kritisches System am Laufen zu halten, statt sich um die Modernisierung zu kümmern. Noch mehr: Um eine hohe Datenqualität bei Legacy Systemen zu erhalten, muss meist erheblich mehr Aufwand investiert werden als bei neueren, datenzentrierten Systemen.

Sicherheit

Ein besonderes Problem von Legacy Systemen ist die zunehmend schwächere Sicherheitslage. Während aktuelle Software-Vendoren Sicherheitsupdates bereit stellen und kontinuierlich Bugfixes kreieren, gibt es bei Altsystemen oft niemand mehr, der sich um eine solche fundamentale Pflege kümmern kann. Je nach Einsatz des Systems schlägt sich dies dann selbstverständlich in einer kritischen Infrastrukturschwachstelle nieder, was es möglichst schnell zu beheben gilt.

Zugriffsmöglichkeiten

Vor wenigen Jahren wurde IT-Architektur noch nicht so weit und holistisch gedacht wie es heute der Fall ist. Folglich gab es früher auch selten den direkten Anwendungsfall, dass auf ein System von Außen, Innen oder automatisiert zugegriffen werden kann. Dies hat sich in den letzten Jahren geändert und die Bereitstellung von Schnittstellen zu anderen Systemen wird immer mehr zu einer Basisfähigkeit von vielen Systemen. 

Datensilos

Angrenzend an das vorherige Problem ist auch die Systeminterne Datenverwaltung eine Herausforderung. Im Zeitalter von künstlicher Intelligenz, Data Science und anderen Data Analytics Herangehensweisen gilt es, möglichst einfach Daten aus Systemen zu extrahieren und zentralisiert in zum Beispiel einem Data Lake zur Verfügung zu stellen. Bei Legacy Systemen ist dies oft nicht einfach der Fall und falls, machen schwierige Datenmodelle oder obskure Datenbanken gerne einen zusätzlichen Strich durch die Rechnung.

Compliance

Nicht nur die Verarbeitung von Daten im Sinne von Insights und Innovation ist ein Thema, sondern auch im Zuge der DSGVO und anderen Datenschutzverordnungen. Die Idee, dass einfach, schnell und direkt Daten identifiziert, extrahiert und gelöscht werden können um dem Datenselbstbestimmungsrecht gerecht zu werden, ist in vielen Legacy Systemen nicht angedacht.

Integration

Zusammengenommen ist neben den erhöhten Kosten die Integration eines Legacy Systems eines der Hauptprobleme. Vor einigen Jahren war es nicht fundamental wichtig, Systeme zu kombinieren und in eine IT-Architektur zu integrieren. Heute ist dies jedoch der Fall. Und diese mangelnde Integration von Legacy Systemen macht allen Ideen von Weiterentwicklung, Pflege und Querverbindung einen Strich durch die Rechnung.

Skalierbarkeit

Das dritte Hauptproblem von Legacy Systems ist die Skalierbarkeit. Während heute eine viel größere Bandbreite an Technologien existiert um Systeme oder Systemkomponenten zu skalieren, haben sich Altsysteme vor der Ära von Big Data und IoT kaum damit beschäftigt. Folglich werden die meisten Initiativen, ein Legacy System auf einen modernen, interkonnektierten, balanzierten Stand zu bringen, scheitern.

Lösungsansätze bei der Ablösung von Legacy Systemen

Ein Laptop mit Statistiken auf dem Bildschirm
Die Ablösung von Legacy Systemen geschieht durch Datenmigration, Ad-Hoc Ablöse, Auslagerung von Teilfunktionalität oder Parallelbetrieb.

Früher oder später muss bei jeden Legacy System über die Ablösung nachgedacht werden. Für eine erfolgreiche Ablösung muss nach einer Systemauswahl die Ablösung geplant werden. Es gibt hierbei zwei kritische Komponenten, die es zu vermeiden gilt: Ausfall der Funktionalität und Datenverlust. 

Datenmigration gegen Datenverlust

Einer der Worst Cases bei der Ablösung eines Altsystems ist der komplette Datenverlust. Da selten neue Datenmodelle so konzipiert werden wie in alten Systemen, muss der Übertrag der Daten immer sorgfältig geplant werden.

Als Lösung steht eine strategische Datenmigration an. Hierzu werden während der Ablösung die Daten aus dem Legacy System extrahiert und in das neue System überführt. Konkreter gilt es hierbei folgende Schritte zu beachten:

  • Datenpipeline zur Extraktion aufbauen
  • Ggf. Daten säubern und/oder filtern
  • Datentransformationen definieren und etablieren, um das Zieldatensystemmodel zu erfüllen (Data Mapping)
  • Test-Runs um die Funktionalität der Data Pipeline zu überprüfen
  • Alle Daten direkt in das Neusystem einspeisen

Während dieser Datenmigration gilt es besonders darauf zu achten, dass keine Neudaten erstellt oder verloren werden. Folglich muss diese Migration entweder parallel zur Live-Schaltung des neuen Systems oder Post-Hoc erfolgen. Je nach Datenbasis kann folglich entweder der Datentransfer später erfolgen (z.B. Analyticsdaten) oder der Betrieb des Systems muss pausiert werden (z.B. ERP).

Kobold AI zur Überprüfung der Datenqualität bei einer Migration

Um bei Produkt- und Kundendatenmigrationen zu unterstützen, haben wir eine vollautomatische Datenqualitätsanalyse entwickelt:

Ad-Hoc Ablösung des Legacy Systems 

Zur direkten Ablöse des Legacy Systems gibt es im wesentlichen drei Herangehensweisen. Entweder wird das System direkt und unwiderruflich abgelöst und alle Funktionalitäten direkt vom neuen System abgedeckt, es werden sukzessive nur Teilfunktionalitäten im neuen System live geschalten oder es erfolgt initial ein Parallelbetrieb, der es erlaubt, die Funktionalität in beiden Systemen kontinuierlich zu überprüfen.

Der effizienteste aber auch riskanteste Weg ein System abzulösen ist, dass man das Neusystem vorbereitet und nach der Datenmigration dann das Legacy System direkt damit ersetzt. Nachfolgend laufen alle Operationen direkt über das neue System, die Daten werden im neuen System erstellt und alle Nutzer sind verpflichtet, direkt mit der neuen Software zu arbeiten. Die Nachteile sind offensichtlich: Funktioniert etwas nicht, kann eine kritische Komponente in der IT-Infrastruktur lahm gelegt sein, es besteht ein sehr hoher Ad-Hoc Trainingsbedarf und bei Fehlschlag einer Ablösung ist ein Datenverlust vorprogrammiert.

Teilfunktionalität auslagern und Legacy System sukzessive ablösen

Als Alternative dazu gibt es die Methode, dass ein Legacy System funktionalitätsbasiert sukzessive abgelöst wird. Hierzu werden beide Systeme Live geschalten und nur nach und nach Komponenten migriert. Dies erlaubt eine kontinuierliche Überprüfung der Funktionalität, während bei einem Fehlschlag die Auswirkungen möglichst gering gehalten werden.

Durch ein Teilfunktionalitätsvorgehen wird die Sicherheit für den Erfolg erhöht, doch ebenso erhöht sich der Pflegebedarf und die Organisation. Ebenso erhöht dies meist massiv die Projektlaufzeit, da jede einzeln Komponente geprüft wird, bevor sie als transferiert gilt. Ebenso muss die Koordination der Angestellten genau gesteuert werden, damit klar ist, welche Komponente in welchem System zu nutzen ist.

Teilweise ist es in diesem Prinzip notwendig, Schnittstellen zum Legacy System zu erstellen, damit (ähnlich einer Microservices-Architektur) die Daten zwischen den Systemen ausgetauscht werden können. Diese Notwendigkeit trägt zum Aufwand der Vorbereitung bei.

Temporärer paralleler Betrieb 

Eine weitere etablierte Methode in der Migration eines Legacy Systems ist der temporäre Vollbetrieb beider Systeme. Wie man schnell erkennt, ist dies vom Aufwand die intensivste Lösung, da zwei volle Systeme gleichzeitig gepflegt und genutzt werden müssen. Vor allem auch für die Anwender, die zum Beispiel Vorgänge in beiden Systemen erfassen müssen.

Der Vorteil ist jedoch ebenso offensichtlich: Es wird sehr schnell sehr deutlich klar, ob beide Systeme die gleichen Ergebnisse produzieren, die gleichen Daten speichern und die gleiche Performanz ausweisen. Üblicherweise wird dieser Parallelbetrieb allerdings nicht sehr lange aufrecht erhalten, da sie sehr intensiv sind.

Zusammenfassung: Was sind Legacy Systeme?

Zusammenfassend hoffen wir klar dargestellt zu haben, weshalb Legacy Systeme existieren und welche Probleme sie verursachen. Diese Altsysteme hatten in vergangener Zeit sicherlich ihre Daseinsberechtigung oder waren bzw. sind noch absolut zentral für die Funktionalität eines Unternehmens. 

Doch inzwischen hat sich die Technologie-Landschaft weiterentwickelt und manche Systeme können mit dem Fortschritt nicht mehr mithalten. Daher gilt es – strukturiert und geplant – solche Legacy Systeme abzulösen, damit die IT-Infrastruktur nicht dem Erfolg des Gesamtunternehmens im Weg steht.

Veröffentlicht am

Big Data Value: Was ist das? Definition und Beispiele

Eine Person zählt Geldscheine

Als eines von 5 Merkmalen von Big Data steht “Value” für den Wert von Daten. Ein Wert aus Daten entsteht, wenn ein Unternehmen Daten optimierend oder innovativ einsetzen kann. Dabei gilt es, Anwendungsfälle zu identifizieren und mittels Data Analytics oder Data Mining diese Daten zu verarbeiten, um Information oder neue Geschäftsmodelle daraus zu generieren. Damit entsteht Big Data Value und eine neue Ära der Datennutzung.

Zusammenfassung des Artikels

  • “Value” ist eines der Merkmale von Big Data und bezeichnet den Wert von Daten
  • Wert kann durch das Generieren, Sammeln oder Auswerten von Daten entstehen
  • Beispiele für Big Data Value sind umfassende Kundendaten, gecrawlte Daten oder Daten aus dem Bereich Internet of Things

Inhaltsverzeichnis

Die 5 Vs als Merkmale für Big Data

Um Big Data zu definieren werden üblicherweise 5 “Vs” genutzt: Volume (Menge), Velocity (Geschwindigkeit), Variety (Vielfältigkeit), Veracity (Qualität) und Value (Wert).

Big Data Volume: Die Menge an Daten

Wer das erste Mal “Big Data” liest, wird sofort an die Menge von Daten denken. Dies ist einer eindeutigsten Faktoren, wodurch sich Big Data von herkömmlichen Daten unterscheidet. 

Für die Menge “Big” gibt es allerdings keine fixe Richtlinie, sondern es bezieht sich eher auf die Idee, dass die Datenmengen nicht mehr einfach verarbeitet werden können. Dies kann im einfachsten Fall die Datenmenge an sich sein, aber auch die Anforderungen von Algorithmen an Hardware und Software stossen gerne an Limits. 

Daher ist “Volume” eines der zentrale Merkmale für Big Data.

Big Data Velocity: Schnelle Erzeugung und Änderung von Daten

Ein anderes Merkmal ist die Velocity, zu Deutsch die Geschwindigkeit mit der Daten erzeugt oder geändert werden. Früher war es üblich, dass angelegte Daten selten oder gar nicht geändert werden. Auch die Erzeugungsgeschwindigkeit war üblicherweise relativ gering.

Dieser Faktor hat sich mit neuen Technologien und Plattformen wie Sozialen Medien oder dem Internet der Dinge (IoT) erheblich geändert. 

Daten werden heute in sehr großen Mengen generiert, geändert, angepasst und transferiert. Events – also kleine Nachrichten von Geräten – werden im Millisekundentakt generiert und benötigen ganz neue Software um erfasst und gespeichert zu werden. Daher ist die Datengeschwindigkeit (Velocity) ein weiteres prägnantes Merkmal für Big Data.

Big Data Variety: Unstrukturierte Daten haben ein hohes Potential

Als drittes Merkmal gilt die Varianz der Big Data-Daten. Während lange Zeit in Business Analytics nur strukturierte Daten verarbeitet wurden, sind diese Grenzen durch Big Data aufgebrochen worden. Nicht nur Daten-Tabellen werden verarbeitet, sondern auch andere Datentypen wie Bilder, Videos oder Text.

Die Big Data Variety stellt neue Herausforderungen an Software, Tools, Datenspeicherung und Analyse. Andererseits birgt sich auch sehr viel Information und Wissen in diesen unstrukturierten Daten. Zum Beispiel beinhaltet ein Bild eines Kunden oft mehr Information als jede Kundendatenbank. Daher sind Unternehmen sehr daran interessiert, diese neuen Arten von Daten auszuwerten.

Big Data Veracity: Sind die Daten vertrauenswürdig?

Neben den drei ersten Merkmalen für Big Data kamen zwei weitere hinzu. Das vierte Merkmal ist die Big Data Veracity. Hierbei stellt sich die Frage, welcher Herkunft und welcher Qualität die Daten sind. 

Diese Fragen sind wichtig, da Daten nur sinnvoll und nachhaltig eingesetzt werden können, so sie zuverlässig sind. Wenn die Datenqualität fraglich ist oder unklar ist, wie die Daten generiert wurden, kann man diese nicht verlässlich zu Analysen einsetzen.

Für einen detaillierten Artikel zum Thema Big Data Veracity siehe unser Artikel “Big Data Veracity: Was ist das? Definition und Beispiele”.

Big Data Value: Der Wert der Daten

Das fünfte Merkmal ist das Big Data Value, also ob und wenn ja, welchen Wert die Daten haben. Dieses Merkmal möchten wir in den nächsten Abschnitten ausführlich definieren und anhand von Beispielen erklären.

Das fünfte V: Big Data Value

Big Data Value, zu Deutsch “Der Wert der Daten”, ist das fünfte Merkmal von Big Data. Man bezeichnet damit pauschal, ob Daten einen Wert besitzen und falls, welchen. Dabei ist nicht notwendigerweise der rein monetäre Wert gemeint, sondern vor allem der inhaltliche: Welche Erkenntnisse können wir aus den Daten ziehen?

Einfach gesagt ist die Idee, dass nebst anderer Merkmale wie die Menge an Daten, deren Inhalten und Qualität, man sich auch die Frage stellen soll, ob die Daten einen Wert für das Unternehmen oder die Organisation haben.

Welche Arten von Wert kann man Daten zuweisen?

Der offensichtlichste Wert von Daten ist der, der alleine durch den Besitz der Daten generiert wird. Dies sind vor allem Daten, die so selten sind, dass sie einen Wettbewerbsvorteil verschaffen oder verkauft werden können.

Als Beispiele gelten besonders industriespezifische Daten, gecrawlte Daten (z.B. Google), besondere Kundendaten (z.B. Kontodaten) oder Gerätedaten (z.B. Fertigungsmaschinen). Jeder dieser Datenbestände hat einen intrinsischen Wert, da er gesammelt und aggregiert wurde. 

Ein weiterer Wert, der für die meisten Unternehmen zutreffen dürfte, sind Daten die bei Auswertung erlauben Prozesse zu verbessern. Hierbei wird meistens mittels Datenanalyse und Data Mining Information aus den Daten extrahiert und dann den Fachexperten der Abteilungen zur Verfügung gestellt.

Daten zur Verbesserung betreffen so ziemlich alle operativ generierten Daten wie zum Beispiel aus dem CRM (Kundendaten), aus einem Service-System, aus dem ERP, Webanalytics und viele mehr. Alle diese Datenquellen bilden ein Bruchstück des Verhaltens von Menschen und Maschinen ab; folglich erlaubt eine Auswertung, diese besser zu verstehen.

Der dritte Wert sind Daten die im Zuge der digitalen Transformation für neue Geschäftsmodelle eingesetzt werden können. Hier verwertet man Daten auf eine Art und Weise, die Innovation schafft. Meistens mittels künstlicher Intelligenz und Machine Learning werden Vorhersagen oder Zugehörigkeiten bestimmt, die als Produkt oder Service zu etablieren sind.

Es können alle Daten in diesen Bereich fallen, haben jedoch meist zur Prämisse, dass sie geschickt ausgewertet werden. Sogar öffentlich zugängliche oder einkaufbare Daten können verwertet werden, so dass sie mehr als nur den Datenwert besitzen.

Sind Daten ohne “Wert” wertlos?

Somit stellt sich im Umkehrschluss die Frage, ob Daten ohne direkt erkennbaren “Big Data Value” auch wertlos sind und somit ggf. gelöscht oder gar nicht erst erfasst werden sollen. 

Dem ist natürlich zu widersprechen. Man weiß nicht vorab, welche Daten welchen Wert bedeuten können. Wichtig ist es hingegen, Daten unabhängig von ihrem Inhalt nutzbar zu machen indem zum Beispiel die Datenqualität hoch gehalten wird und ein Datenkatalog gepflegt wird. 

Der Unterschied ist, dass manche Daten bereits inhärent Wert produzieren können, andere hingegen (noch) nicht. Bei diesen gilt es dann, entweder später wertvolle Analysen oder Einsatzzwecke zu identifizieren.

Ein Mensch, der mit der linken Hand ein Mobiltelefon und mit der rechten Hand einen Laptop bedient. Beide Displays zeigen Grafen.
Oft entwickeln Daten erst einen Wert mit zunehmender Zeit und Maturität der Data Science Fähigkeiten.

Wie kann man den Wert messen?

Bleibt die Frage, wie man den Wert von Daten messen kann. Generell gibt es selbstverständlich keine Metrik, auf der man Big Data Value angeben kann. Eine einfache Methode hingegen ist, sich zu überlegen, in welchen Anwendungsfällen man vorliegende Daten einsetzen kann. Findet man problemlos mehrere Use Cases bei denen diese Daten eine Rolle spielen können, haben sie auch einen Wert.

Möchte man diesen grundsätzlichen “Einsatzwert” noch verstärken, kann man noch weitere Metriken wie zum Beispiel Einzigartigkeit, Innovationspotential, Auswertungsschwierigkeit, Menge und Qualität der Daten in Betracht ziehen. Somit wird schnell klar, welches Value die Daten besitzen.

Beispiele für wertvolle Daten: Big Data Value in der Praxis

Beispiel 1: Unternehmenseigene Kundendaten

Ein umfassender Wissensstand über die eigenen Kunden ist einer der größten Wettbewerbsvorteile die ein Unternehmen erlangen kann. Schon bei sehr grundständigen Daten wie die Adresse, Bestellhäufigkeit, Kategorienutzung, Newsletterinteraktion kann durch eine umfassende Analyse eine starke Verbesserung von Marketingmaßnahmen, Service und Produktpalette erreicht werden.

Das wohl einfachste Beispiel ist die Einteilung von Kunden in Kundengruppen (z.B. mittels Clustering), um diese dann mit individuellen Newslettern anzusprechen. Ob nun Kategorie-spezifisch oder Preissegmente: Wer die Bedürfnisse der Kunden besser versteht und darauf eingeht, kann auf erhöhte Loyalität und Konvertierung hoffen.

Besonders attraktiv wird die Arbeit mit Kundendaten selbstverständlich, wenn man Advanced Analytics einsetzt, um zum Beispiel Vorhersagen (z.B. Lifetime Value oder Kundenabwanderung) zu generieren, Pricing anzupassen oder Prozesse zu optimieren. Alles was hilft, um a) Kunden besser zu verstehen und b) sein Unternehmen kundenzentrierter auszurichten, hat einen großen Wert.

Beispiel 2: Crawler für Websites oder Social Media

Während fast alle Unternehmen Kundendaten haben, haben die wenigsten gecrawlte Daten. Ein Crawler durchforstet das Internet (oder nur bestimmte Webseiten) und extrahiert Information. Entweder die gesamte Website (wie zum Beispiel Google) oder nur spezifische Informationen (wie zum Beispiel Pricing-Software). Dadurch wird ein großer Datenbestand angehäuft, der sich meist um ein spezifisches Thema dreht.

Warum sind diese Daten wertvoll, wenn sie doch online frei verfügbar sind? Die Extraktion, sinnvolle Erfassung und Speicherung der Daten (z.B. in einem Data Warehouse) hat den großen Vorteil, dass sie einfach und effektiv analysiert werden können. Vor allem wenn man bedenkt, dass ein Crawler meist nicht nur Daten von einer Website 1 zu 1 kopiert, sondern beispielsweise Statements aus allen Social Media Quellen zusammenführt. 

Das dadurch entstandene Kompendium an strukturierten und unstrukturierten Daten hat einen eigenen Wert: Man ist nicht mehr auf manuelle Arbeit über mehrere Applikationen und Kanäle angewiesen, sondern kann sich auf die Schaffung von Wert durch Automatisierung und Machine Learning konzentrieren. Ob nun Visualisierung, Sentiment-Analyse oder der Einfluss auf Umsatzzahlen: Es gibt viele Anwendungsfälle, wofür gecrawlte Daten eingesetzt werden können und werden.

Beispiel 3: IoT – Das Internet der Dinge

Ein modernes Thermostat das Daten produziert
Das Internet der Dinge produziert viele wertvolle Daten

Ein weiteres Beispiel für Daten mit besonderem Wert sind Daten aus dem Internet of Things. Diese meist nur unternehmensintern vorhandenen Daten zeichnen den Zustand und die Interaktion von sogenannten Edge Devices – also elektronischen Geräten auf. Beispiele hierfür sind Kühlschränke, Staubsauger-Roboter, Maschinensensoren, Automobilmessgeräte. In jedem Fall übermitteln diese Geräte über das Internet Daten vom Zustand, von der Umgebung und/oder wie Nutzer oder Mitarbeiter damit interagieren.

Durch diesen Datenbestand ergibt sich eine unglaublich nahe Interaktion mit Mensch und Umgebung der IoT-Devices. Wo sie sind (geographische Daten), wie sie genutzt werden (Interaktionsdaten), wie ihr Zustand ist (Sensorik) und vieles mehr kann aufgezeichnet, gesendet und ausgewertet werden. 

Analysen basierend auf IoT-Daten führen dann zu sehr intensiven Erkenntnissen wie Geräte eingesetzt werden, weshalb Maschinen oder Haushaltsgeräte kaputt gehen und ob die Entwicklung alle Szenarien in der Produktkonzeption bedacht hat. Folglich erlangt man umfangreiches Wissen wie man Produkte verbessern oder auch die Daten monetarisieren kann. Dies bildet die Grundlage für analoge wie auch digitale Innovation und entspricht damit eindeutig dem Big Data Value.

Wie Kobold AI aus Daten Mehrwert schafft

Während der Einsatz von künstlicher Intelligenz sehr aufwendig und kostenintensiv wirkt, muss das nicht sein. Unserer Plattform Kobold AI hat zum Ziel, KI für Nicht-Experten zugänglich zu machen. Wir bieten KI-Produkte die einfach online bestellt und mit eigenen Daten angereichert werden können. 

Mehr Infos in unserem Info-Video zum Thema Self-Service KI-Produkte:

Fazit von “Big Data Value” in Unternehmen

Einfach gesagt steht das Big Data Merkmale “Value” für den Wert von Daten. Ob nun Wert durch die Einzigartigkeit der Daten, Wert durch die Möglichkeiten zur Verbesserung von Prozessen und Wissen oder Innovationsgehalt: Es gibt viele Gründe, weshalb Daten einen Wert beinhalten. 

Das soll nicht heissen, dass blind Daten erzeugt und gespeichert werden sollen. Es sollte am Horizont immer Möglichkeiten zur Auswertung und zum Einsatz der Daten geben. Dennoch ist es heute so, dass Speicherplatz sehr günstig ist; und langjährige Datensammlungen meist einen sehr hohen Wert generieren können.

Von daher sollte jedes Unternehmen sehr explizit überlegen, welche Daten es generieren kann, welche Daten es akquirieren sollte und wie die Datenstrategie gestaltet werden muss, um die Digitale Transformation voran zu treiben.

Veröffentlicht am

KI in der Hotellerie: Wie Hotels mit Daten Erfolg haben

Eine Hand die die Tür zu einem Hotelzimmer öffnet

Viele Hotels hinken in der Digitalisierung hinterher. Dabei gibt es viele Beispiele, wie durch Digitalisierung und datenbasiertes Arbeiten Vorteile im Hotellerie Sektor geschaffen werden kann. Das wichtigste dabei: Reale Probleme lösen und Mehrwert schaffen.

Inhaltsverzeichnis

Wieso wird künstliche Intelligenz in der Hotellerie eingesetzt?

Durch künstliche Intelligenz können große Datenmengen schnell und einfach verarbeitet und Muster abgeleitet werden. In der Hotellerie, die teils mehrere hunderte Buchungen pro Tag bedient, lohnt sich der Einsatz von KI deshalb besonders.

Aber was ist KI eigentlich? Generell meint man damit alle Algorithmen, die menschliches Verhalten simulieren. Ob regelbasiert (Wenn das, tu das) oder maschinelles Lernen (z.B. Neuronale Netze): Diese Systeme haben gemein, dass sie versuchen eine Aufgabe mit dem Einsatz von Daten möglichst optimal zu lösen (spezialisierte KI).

Vorteile des Einsatzes von KI in der Hotellerie sind unter anderem:

  • Automatisierung: Wiederholbare Vorgänge automatisiert abwickeln.
  • Mustererkennung: Unbekannte Muster identifizieren, abstrahieren und wiederholbar machen.
  • Personalisierung: Für jeden Gast, Lieferanten und Partner ein individuelles Erlebnis, Angebot oder Inhalt schaffen.
  • Vorhersagen: Heute wissen, was (wahrscheinlich) die nächsten Wochen und Monate passiert, um operativ zu planen.

Zusammen schafft künstliche Intelligenz massiven Mehrwert im Hospitality-Bereich: Schnell, effizient, günstig und personalisiert Aufgaben zu erledigen. Dabei ist es egal ob komplexe Algorithmen oder große Datenmengen – das Ziel muss sein, konkrete Probleme zu lösen, damit sich die Mitarbeiter um wichtigere Themen kümmern können.

Beispiele für den Einsatz von KI in Hotels

  • Vorhersage Besucherzahl: Wenn man frühzeitig weiß, wie viele Besucher ein Hotel erwartet, kann man sich darauf einstellen. Mitarbeiter einplanen, Verbrauchsartikel ordern und im Restaurant planen sind nur ein paar operativer Ansätze, wie die Vorhersage von Buchungen effizienter arbeiten lässt. 
  • Dynamic Pricing: Vor allem von Flugbuchungsseiten bekannt, ist es auch in der Hotellerie und angebundenen Buchungsseiten sehr verbreitet. Ein dynamischer Preis, der sich auf aufkommendes Interesse (einer Person aber auch über alle Interessenten), Meta-Faktoren (von wo wird gebucht) als auch Verhaltensfaktoren (wie oft wird die Seite besucht) beruft, um möglichst hohe Margen zu erwirtschaften.
  • Chatbots: Rund um die Uhr verfügbar und unterstützt bei 90% der Anfrage – der automatische Helfer auf der Webseite. Inzwischen weit verbreitet helfen Chatbots sich auf komplizierte Fälle zu konzentrieren und ständigen Service anzubieten.
  • Utility usage: Wie viel Wasser, Strom, Müll, Handtücher werden verbraucht werden? Durch Prognose von Materialeinsatz können Verbräuche besser geplant werden.
  • Trend identification: Identifikation von Mustern, welche Vorlieben Gäste haben ist wichtig, um entsprechend planen zu können. Ob bei Zusatzbuchungen oder dem Frühstückskonsum: Trends frühzeitig zu erkennen führt zu mehr Umsatz und besserem Einkauf. 
  • Review Sentiment: Hotelbewertungen, E-Mails an den Empfang oder ein Kommentar auf Social Media sind nur ein paar Wege, wie Gäste Feedback hinterlassen. Diese Reviews auf ihren (emotionalen) Inhalt zu analysieren erlaubt die Sentiment Analyse. Der Vorteil? Wissen, wie zufrieden Gäste sind und auf negative Einträge schnell und effektiv zu reagieren.
  • Upsell: Viele Hotels bieten nicht nur ein Zimmer an sondern einige zusätzliche Services. Durch Information über Gastdaten (Herkunft, Anzahl Gäste, Dauer Aufenthalt,..) und Verhaltensdaten (Nachfragen, E-Mails, Buchung von Leistungen) können weitere Services personalisiert angeboten werden – ähnlich wie Produktempfehlungen im E-Commerce.
  • Data Driven Personas: Vor allem in strategischer Ausrichtung oder Entwicklung neuer Marketingmethoden lohnt sich eine allgemeinere Analyse der Kundenbasis. Durch den Einsatz von Daten können datenbasierte Personas generiert werden, die Gäste gruppiert und deren Ähnlichkeiten herausstellt, um ein besseres Verständnis der Bedürfnisse zu entwickeln.
  • Roboter: Als letztes Beispiel für den Einsatz von KI setzen inzwischen manche Unternehmen Roboter ein. Zum Beispiel Motel One in München nutzt einen Humanoiden Roboter als automatisierten Concierge ein, der Probleme löst und Sehenswürdigkeiten erklären kann.

Künstliche Intelligenz für Hotels von Kobold AI

Während der Einsatz von künstlicher Intelligenz sehr aufwendig und kostenintensiv wirkt, muss das nicht sein. Unserer Plattform Kobold AI hat zum Ziel, KI für Nicht-Experten zugänglich zu machen. Wir bieten KI-Produkte die einfach online bestellt und mit eigenen Daten angereichert werden können. 

Mehr Infos in unserem Info-Video zum Thema Self-Service KI-Produkte:

Häufige Fragen (FAQ)

Brauche ich große Datenmengen?

Nein. Während sehr komplexe Modelle häufig sehr große Datenmengen (Big Data) benötigen, adaptieren die von Kobold AI eingesetzten Algorithmen zur Menge der Daten. Daher können auch kleine und mittelgroße Datenmengen effektiv eingesetzt werden.

Wie teuer ist der Einsatz von KI?

Üblicherweise kostet ein Prototypen-Projekt mit einer Agentur oder Beratung zwischen 15.000€ und 50.000€. Eine KI die live Probleme bearbeitet kostet dann nochmal ein vielfaches davon.

Deshalb haben wir Kobold AI entwickelt. Auch Hotels mit sehr geringem Budget (zwischen 100€ und 500€) können unsere KI-Produkte einsetzen.

Ersetzt KI Concierges und andere Mitarbeiter?

Nein! Während manche Aufgaben immer mehr durch Robotik und künstliche Intelligenz unterstützt werden, bleibt das wichtigste Feld in menschlicher Hand: Ein tolles Erlebnis. Und dies ist auf fähige, begeisterte Mitarbeiter zurück zu führen.

Lohnt sich der Einsatz nur für große Ketten?

Nein! Wie erörtert können auch einzelne, familiengeführte Hotels von den Vorteilen von KI profitieren. Unabhängig von Menge und Vielfalt der Daten gibt es viele Einsatzzwecke, wie aus Daten Mehrwert generiert werden kann.

Wie kann ein Hotel mit dem Einsatz von Ki starten?

Hier einige Anwendungsfälle, die direkt durch Kobold AI umgesetzt werden können:

Veröffentlicht am

Was ist künstliche Intelligenz (KI)? Definition und Beispiele

Eine abstrakte Darstellung von künstlichen Netzen auf die eine Roboterhand zugreift

Während Stichworte wie AI und Big Data in aller Munde sind, ist oft nicht eindeutig klar was künstliche Intelligenz genau ist und welche Beispiele es für die Anwendung gibt. Einfach gesagt ist KI die Simulation von menschlicher Kompetenz durch automatische Systeme. Dies umfasst eine Bandbreite an Methoden von einfachen Algorithmen über Signal Processing wie Bildverarbeitung bis hin zum maschinellen Lernen. Die Chancen die durch künstliche Intelligenz entstehen decken eine Bandbreite an Automatisierung, Optimierung und Unterstützung des Menschen in seinen Tätigkeiten ab und erlauben es uns, sich auf kreative und hochkomplexe, neuartige Aufgaben zu konzentrieren.

Inhaltsverzeichnis

Was ist künstliche Intelligenz (KI)? Eine Definition.

Künstliche Intelligenz ist die Fähigkeit eines Systems, menschliches Verhalten zu simulieren. Diese Nachahmung kann viele Ausprägungen annehmen: Von einem Roboter über eine Software bis hin zu einem physischen Objekt kann vieles den Eindruck erwecken, dass es kognitive Fähigkeiten besitzt. Üblicherweise bezieht man sich mit dem Begriff auf selbstlernende Algorithmen in der Informatik, spezieller im Bereich Data Science und maschinelles Lernen (ML).

Neben dieser allgemeinen Definition von Artificial Intelligence (AI) gibt es noch die pauschale Unterscheidung zwischen starker und schwacher KI. Diese Kategorien sind wichtig zu erörtern, da sich der Stand der Forschung und Wirtschaft nicht mit den Bilder aus Medien und Literatur – vor allem Science Fiction – messen kann.

Was ist starke / allgemeine KI?

Der Terminator, HAL 9000, die Matrix oder die Humanoiden in “I, Robot” sind alles Beispiele für eine starke künstliche Intelligenz. Starke KI kann Probleme selbstständig erkennen, evaluieren und lösen – egal in welchem Bereich. Sie agiert ständig unter neuen Bedingungen und kann sich mühelos auf neue Situationen einstellen – wie der Mensch.

Doch von diesen Bildern sind wir in der Realität noch ein Stück entfernt. Diese generalisierte, allgemeine künstliche Intelligenz erfordert noch viel größere Sprünge in Forschung und Entwicklung, als momentan möglich ist. Die starke KI muss “lernen zu lernen”, was eine große Herausforderung aufgrund der notwendigen Flexibilität ist.

Das Prinzip im Bereich von ML das einer starken KI am nähesten kommt ist der Bereich Reinforcement Learning. Hier wird ein Agent (Computerprogramm oder zum Beispiel ein Roboter) in eine Umgebung gesetzt und lernt mittels fixer Aktionen (z.B. Vorwärtsbewegen und Greifen) ein Ziel möglichst optimal zu erfüllen. Doch auch hier sind die Rahmenbedingungen anhand von Umgebung, Aktionen, Ziel und Belohnung vorgegeben und somit die komplette Variabilität eines menschlichen Handelns lange nicht gegeben.

Was ist schwache / spezialisierte KI?

Im Kontrast zur starken KI steht die schwache KI. Die schwache KI fokussiert sich auf die (nahezu) optimale Lösung eines spezifischen Anwendungsproblems. Für den Einsatz dieser Art von künstlicher Intelligenz gibt es viele Beispiele. Die Vorhersage von Wetter, das Kategorisieren von Bildmaterial, Gesichtserkennung, Sprache zu Text-Übersetzung oder auch autonomes Fahren sind alles Einsatzgebiete einer schwachen künstlichen Intelligenz.

Folglich sind alle momentan existierenden Anwendungen im Bereich der künstlichen Intelligenz aus der Kategorie schwache KI. Das Ziel hierbei ist, ein statistisches Modell zu erstellen, das eine Aufgabe bestmöglich löst. Als Datengrundlage dienen alle Arten von Sensoren (z.B. Kamera, Audio oder Vibrationssensor) sowie Systemen (z.B. ERP, Webanalytics, Service). Darauf basierend lässt man die KI “lernen”, um somit Vorhersagen oder Kategorisierungen zu treffen – klassische Beispiele aus dem Bereich maschinelles Lernen.

Die Geschichte künstlicher Intelligenz

Auch wenn künstliche Intelligenz in den letzten Jahren einen regelrechten Hype erlebt, gibt es das Prinzip – vor allem in theoretischer Natur – schon seit mehr als einem halben Jahrhundert. In der ersten Hälfte des 20ten Jahrhunderts war es vor allem der Bereich von Science Fiction der die ersten Konzepte von autonomen Maschinen und Gefährten darstellten. 

Dem folgte in 1956 die Definition des Begriffs “Artificial Intelligence” auf der sogenannten Dartmouth Conference und somit war das Feld auch formell definiert und für weiterführende Forschung geöffnet. 

Eines der ersten und auch eindrucksvollsten Beispiele wurde 10 Jahre im Bereich der natürlichen Sprachverarbeitung erreicht. Das sogenannte ELIZA-System von Joseph Weizenbaum nutzte syntaktische Umstrukturierung (von Aussage zu Frage) von schriftlichen Input, um wie ein intelligentes System zu wirken.

Es folgten viele Forschungen und auch zwei sogenannte “AI winter”, in denen erkannt wurde, dass die damals überzogenen Versprechen nicht eingehalten werden können. In diesem Zeiten wurden die Forschungsgelder für Forschung im Bereich KI eingefroren, aber sukzessive immer wieder unter kritischen Blicken aufgetaut.

Eines der bekanntesten Ereignisse in der Neuzeit dürfte der Gewinn von Deep Blue gegen Kasparov im Schach sein. Damit wurde 1997 gezeigt, dass eine Maschine in einem sehr spezialisierten, wenn auch hochkognitiven Bereich, besser sein konnte als der Mensch.

Seitdem haben sich die Ereignisse überschlagen: Von IBM Watson’s Gewinn in Jeopardy über die Definition von Big Data und die Entwicklung von Deep Learning gab es viele methodische und technologische Weiterentwicklungen, die die KI immer stärken werden lässt.

Begriffsabgrenzung – KI vs. ML, NN, DL und Big Data

Künstliche Intelligenz vs. maschinelles Lernen (ML): Was ist der Unterschied?

Oft wird künstliche Intelligenz mit maschinellem Lernen direkt gleichgesetzt. Doch ist Machine Learning nur ein Teilgebiet von Artificial Intelligence. Der Unterschied zwischen AI und ML besteht darin, dass AI auch einfache Systeme umfasst, die menschliches Verhalten nachahmen. 

Ein einfaches Beispiel für AI, aber nicht ML ist ein regelbasierter Tic-Tac-Toe Bot: Dieser schafft es, einer optimalen Routine im Spiel zu folgen, was einem menschlichen Verhalten sehr nahe kommt. Er basiert jedoch nicht auf dem variablen Lernen von Zuständen wie maschinelles Lernen, sondern fix definierten Regeln. 

Daher umfasst KI ein wesentlich breiteres Feld, während ML die spezielle Anwendung von gelernten Konzepten mittels Statistik definiert.

Künstliche Intelligenz vs. neuronale Netze (NN) / Deep Learning (DL): Was ist der Unterschied?

Neuronale Netze und Deep Learning werden oft im gleichen Atemzug wie künstliche Intelligenz genannt – doch was ist der Unterschied? Neuronale Netze – also die künstliche Implementierung eines menschlichen Neurons – werden oft als Methode im Machine Learning eingesetzt, um Klassifikationsaufgaben zu lösen. Daher sind neuronale Netze eine Methode von maschinellen Lernen, was wie erörtert wiederum ein Teilgebiet von künstlicher Intelligenz ist.

Deep Learning hingegen ist eine bestimmte, fortgeschrittene Art von Neuronalen Netzen. Das diese Herangehensweise erlaubt, auch Teilkonzepte eines Inputs zu generieren, sind Vorhersagen viel multischichtiger als bei klassischen ML-Algorithmen. Dies trägt zu verbesserten Ergebnissen bei. Dennoch ist auch Deep Learning eine Methode im Feld der KI.

Künstliche Intelligenz vs. Big Data: Was ist der Unterschied?

Als Big Data werden Daten bezeichnet, die durch ihr Volumen, ihre Variabilität, ihre Geschwindigkeit, ihre Qualität oder ihren Wert über gewöhnlich, lokal und einfach verarbeitende Datensätze hinaus gehen. Folglich bezeichnet man mit künstlicher Intelligenz eine Bandbreite an Methoden um Daten einzusetzen, mit Big Data die dazugehörigen Daten an sich.

Die Rolle von KI in Unternehmen und Gesellschaft

Warum ist KI so bemerkenswert?

Künstliche Intelligenz ist heruntergebrochen nichts anderes als viele Daten, Statistik und Programmieren. Daher stellt sich die Frage: Weshalb revolutioniert es seit geraumer Zeit die Technologiebranche?

Der Mehrwert von künstlicher Intelligenz ist es, dass die Algorithmen in der Lage sind, Dinge zu tun, die man manuell nicht schaffen würde. Sowohl von Präzision als auch Volumen ermöglicht es KI Daten zu verarbeiten, was Menschen oder herkömmliche Algorithmen nicht schaffen. 

Dieses Prinzip lässt sich am einfachsten anhand verschiedener Beispiele illustrieren. Gesichtserkennung ist ein Algorithmus der auf Neuronalen Netzen beruht und aus einem Bild mittels Image Processing extrahiert, um nachfolgend je nach Anwendungsfall zu identifizieren oder andere Informationen des Gesichts zu extrahieren (z.B. Alter, Geschlecht). 

Dieses Vorgehen lässt sich mittels KI beliebig skalieren: Egal wie viele Videos oder Bilder verarbeitet werden, die künstliche Intelligenz ist im Stande es abzuwickeln. Dies wäre mit menschlicher Unterstützung nicht möglich: Weder die genaue Erkennung von Gesichtern noch eine nahezu beliebige Masse kann manuell erreicht werden.

Aber auch andere Anwendungsfälle wie zum Beispiel aus dem autonomen Fahren zeigen auf, dass ohne KI viele technologischen Innovationen nicht möglich wären. Automatische Kommunikation mit anderen Teilnehmern des Straßenverkehrs, in Millisekunden eine optimale Entscheidung treffen und auch in unbekannten Gegenden erfolgreich navigieren – all dies sind nur ein paar Ansatzpunkte, wie KI herkömmlichen Methoden überlegen ist.

Künstliche Intelligenz in der Wirtschaft

Eine der häufigsten Fragen im Zusammenhang mit künstlicher Intelligenz ist die Frage, welche Rolle KI im Unternehmen einnehmen wird. Ist sie eine Rand-Technologie, unterstützer des Menschen oder sogar die Zukunft, die autonom Entscheidungen trifft?

Während die Bandbreite an Meinungen dazu groß ist wie die Fragen selbst, sind einige Dinge relativ verlässlich. Zum Einen sollte sich jeder Geschäftsführer klar machen, dass künstliche Intelligen und maschinelles Lernen die Bühne der Weltwirtschaft nicht mehr verlassen wird.

Ähnlich dem Internet und digitaler Technologien sehen wir KI zukünftig als zentrale Fähigkeit in jedem Unternehmen. Ob nun als eigene Data Science Unit oder als AI-Software wird individuell bestimmt werden, aber dass KI eingesetzt wird ist unumgänglich. Vor allem auch mit der Etablierung des Internet of Things ist es sinnvoll und notwendig zu verstehen wozu künstliche Intelligenz in der Lage ist und welche Grenzen man beachten muss.

Entsprechend anderer Kernkompetenzen wird es folgendermaßen auch immer zentraler werden, ein “data driven mindset” im Unternehmen zu verankern und zu fördern. Mittels Schulungen und proaktiver Förderung von datengetriebener Ideen schafft es somit ein Unternehmen, auch langfristig handlungsfähig zu sein.

Künstliche Intelligenz im Mittelstand

Wenn wir mit Unternehmen zum Thema KI sprechen, sehen viele große Unternehmen als Hauptakteure. Doch folgend unserer vorherigen Idee, dass AI allgegenwärtig sein wird, müssen wir diese Annahme erweitern. Nicht nur die DAX-Unternehmen müssen in KI-Kompetenz investieren, sondern auch der Mittelstand.

Während es im Mittelstand selten zentral sein wird, künstliche Intelligenz als Produkt zu verkaufen, darf das Potential hingegen nicht ungehoben bleiben, was Optimierung und Innovation betrifft. Nur wer selbst im Stande ist, mit einfachen Methoden das Unternehmen sukzessive digital zu positionieren, wird in Zukunft mit großen Unternehmen mithalten können.

Macht künstliche Intelligenz Jobs bald überflüssig?

Diese Frage müsste genauer formuliert werden und zwar: “Welche Jobs macht KI überflüssig?” Denn wie es oft mit technologischem Fortschritt ist, wird auch KI in bestimmten Berufen derart große Optimierungen bringen, dass der menschliche Einfluss überflüssig wird.

Welche Berufe sind vom Fortschritt der KI betroffen? Besonders jene, welche eine sehr wiederholende Aufgabe ausführen oder eine Spezialaufgabe erledigen, die sehr gut durch die Algorithmen von Machine Learning gelöst werden oder automatisiert können. Als Beispiele sind hier Marktforscher (NLP und Big Data), Paketboten (mit dem Ersatz Drone), LKW-Fahrer (autonomes Fahren) oder Recruiting-Agenturen (Data Mining).

Gehört KI die Zukunft?

Neben den vielen positiven Aspekten gibt es auch ein paar kritische Stimmen, die argumentieren, dass bald alles von Maschinen beherrscht werden wird. Positiv formuliert stellen diese Stimmen die Frage, ob die künstliche Intelligenz in Zukunft omnipotent sein wird.

Wie bereits in den vorherigen Fragen angerissen, sehen wir dies aspektabhängig. Einerseits wird KI gewisse Teile von Gesellschaft und Arbeitswelt sehr stark beeinflussen. Sei es nun die Automatisierung von bestimmten Berufen oder verschiedene Personalisierungsalgorithmen, die Menschen immer mehr in ihrer eigenen Wohlfühlebene belassen. 

Im Gegensatz steht das große Argument, dass künstliche Intelligenz bis dato sehr weit entfernt ist von der menschlichen Denkfähigkeit. Die starke AI ist nach wie vor ein Produkt von Science Fiction und fachlich ist der Weg dorthin noch sehr weit.

Nichtsdestotrotz sollten sich alle Firmen und Wissenschaftlicher die die Forschung im Bereich Artificial Intelligence weitertreiben die Frage stellen, was ist, wenn wir so weit sind. Diese Überlegungen sind manifestiert im Thema “Ethik in der KI”, oft auch in Referenz mit den 3 Gesetzen der Robotik. Sie besagen, dass – egal wie fortgeschritten die KI ist – die KI nie einen Menschen verletzen darf, den Menschen zu gehorchen hat und sich selbst schützen soll.

Zusammengenommen sehen wir drei Aspekte: Die KI wird große Teile unseres täglichen Seins verändern, jedoch sind wir weit weg von einer generellen AI, die den Menschen in allen Bereichen übertrumpft. Und selbst falls wir eines Tages dort angelangt sein sollten, gibt es bereits seit Jahrzehnten Überlegungen, wie die KI auch ethisch gestaltet werden kann.

Methoden der künstlichen Intelligenz

Nun ist bekannt was KI ist und weshalb es relevant ist. Doch wie funktioniert es im Detail? Hier möchten wir vorstellen, wie künstliche Intelligenz im Alltag realisiert wird. Dominierend sind hier mitunter die Machine Learning Methoden, doch auch einfache datenverarbeitende Herangehensweisen wie Bildverarbeitung fallen in das Feld der KI. Hier möchten wir einen kurzen Überblick über die Haupteckpunkte der eingesetzten Methoden geben.

Supervised Learning

Im Bereich des Supervised Learnings (zu Deutsch: Überwachtes Lernen) kommen zwei Hauptkategorien an Algorithmen zum Einsatz: Die Prädiktion und die Klassifikation. Die Prädiktion hat zum Ziel, numerische Werte, also Zahlen, vorherzusagen. Einfache Beispiele sind die Vorhersage von Umsatzzahlen, Temperatur oder Dauer eines Vorgangs.

Die Klassifikation auf der anderen Seite erfüllt die Aufgabe, etwas in eine von zwei Kategorien (“Label”) einzuordnen. Beispiele sind Objekterkennung (“Hund / Katze”), Fehlererkennung in der Herstellung von Produkten oder die Einordnung von Kunden in bestimmte Segmente.

Gemein haben alle Algorithmen im Bereich des überwachten Lernens, dass sie zuerst anhand von Trainingsdaten ein statistisches Modell trainieren, um dieses Modell dann auf neue Daten anzuwenden. Ein Modell in diesem Zusammenhang stellt nur eine statistische Gleichung dar, die solange optimiert wurde, bis sie möglichst viele Trainingsdaten möglichst genau vorhersagt.

Supervised Learning kommt dort zum Einsatz, wo man basierend auf bereits vorhandenen Daten eine bestmögliche Vorhersage treffen möchte. Dabei ist der oft aufwändigste Schritt das Labelling der Daten. Je nachdem wie viele zusätzlichen Informationen (z.B. Alter, Geschlecht, Herkunft, Mitgliedsdauer, etc.. bei einem Kunden) im Algorithmus beachtet werden, umso mehr Daten sind auch nötig, um ein verlässliches Modell zu trainieren. Und diese Daten müssen alle mit Trainingsinformationen versehen werden, um dem Modell einen Parameter bereit zu stellen, anhand dem er die Vorhersage trainiert.

Unsupervised Learning

Im Gegensatz zum Supervised Learning steht das Unsupervised Learning, auf Deutsch Unüberwachtes Lernen. Im Bereich des unüberwachten Lernen gibt es eine Vielzahl an Methoden, die alle zum Ziel haben, Muster in vorliegenden Daten zu identifizieren.

Das Vorgehen ist hierbei jedoch nicht wie im Supervised Learning an Trainingsattributen ausgerichtet, sondern nutzt Informationen innerhalb der Daten, um sinnvolle Gruppen zu bilden.

Ein Beispiel ist der Bereich des Clusterings. Im Clustering werden Distanzen zwischen einzelnen Dateneinträgen ausgerechnet, um möglichst identische Einträge in eine Gruppe (einen Cluster) zusammen zu fassen. Dies geschieht zum Beispiel im Bereich der Kundensegmentierung. Jeder Kunde hat viele Attribute (Alter, Geschlecht, Wohnort, Anzahl Einkäufe, bevorzugte Lieferart, Lieblingskategorie, etc) und kann damit in Relation zu jedem anderen Kunden gesetzt werden. Dadurch findet man sich ähnlich verhaltende Kunden, die man dann gesammelt betrachten kann.

Ein anderes Beispiel im Unsupervised Learning sind Recommendation Algorithmen. Hier werden zusammen auftretende Ereignisse (zum Beispiel Wareneinkäufe) auf ihre Gemeinsamkeit analysiert, um darauf basierend Empfehlungen zu geben. So nutzt man die großen Datenmengen aller Kunden zusammen, um zum Beispiel zu evaluieren, welche Produkte häufig gemeinsam gekauft werden – um dann jenen, die nur eines davon gekauft haben, auch das andere vorzuschlagen.

Diese und weitere Kategorien für maschinelles Lernen findet ihr auch in unserem Artikel “Was ist Machine Learning? Definition, Algorithmen und Beispiele von maschinellem Lernen“.

Reinforcement Learning

Als dritte Hauptkategorie von Machine Learning und somit auch künstlicher Intelligenz wird Reinforcement Learning, zu Deutsch verstärkendes Lernen, gesehen. Im verstärkenden Lernen wird ein so-genannter Agent (zum Beispiel ein virtueller Avatar oder ein realer Roboter) in einer Umgebung (zum Beispiel ein Raum) eingesetzt, um ein Ziel (Goal) zu erreichen. Hierzu kann der Agent vorher definierte Aktionen (z.B. Gerade aus fahren, Lenken, Bremsen) einsetzen.

Die Aufgabe des Agenten ist, einen optimalen Weg zu finden, um das Ziel zu erreichen. Hierzu gibt es Ressourcen (zum Beispiel Energie), die sich entsprechend der eingesetzten Aktionen verbrauchen.

Reinforcement Learning wird wie bereits angedeutet im Bereich autonomes Fahren eingesetzt, aber auch in Angebots- oder Preisoptimierung können derartige Algorithmen genutzt werden.

Signal Processing

Signal Processing, zu Deutsch Signalverarbeitung, beschäftigt sich mit der Übersetzung von Signalen aus der Umwelt in interpretierbare Daten. Generell geht es daher in dieser Methodik von KI darum, Signale (zum Beispiel aus Sensoren wie einer Kamera oder einem Mikrofon, aber auch Vibration, Energie oder Temperatur) zu verarbeiten.

Ziel ist hierbei, möglichst viel Information aus einem eindimensionalen Signal zu extrahieren, um entsprechende nachfolgende Aktionen durchzuführen. Ein Beispiel wäre, dass eine Produktionsmaschine abgeschalten wird, bevor sie überhitzt.

Signal Processing ist formell gesehen nicht mehr im Bereich Machine Learning, kann aber definitiv mit Methoden des maschinellen Lernens bearbeitet werden. Vor allem nachfolgende Verarbeitungsschritte werden meist mittels ML durchgeführt.

Image Processing

Was als Unterform von Signal Processing gesehen werden kann ist Image Processing, zu Deutsch Bildverarbeitung. Hierzu werden von Kameras aufgenommene Bilder oder Videos auf zu extrahierende Informationen verarbeitet.

Ein sehr prominentes Beispiel, das inzwischen auch Einzug in unseren Alltag gefunden hat ist die Gesichtserkennung. Über die Frontalkamera unserer Mobiltelefone wird das Gesicht aus dem Bild extrahiert und dann mittels Klassifikation in “Besitzer” und “Nicht-Besitzer” eingeordnet.

Auch im Bereich Objekterkennung wird Bildverarbeitung eingesetzt. Egal ob Menschen, Tiere oder Produkte: Inzwischen kann sehr zuverlässig aus jedem Bild extrahiert werden, welche Objekte sich darauf befinden.

Natural Language Processing

Eine weitere Unterkategorie der Signalverarbeitung ist der Bereich Natural Language Processing (NLP), auf Deutsch natürliche Sprachverarbeitung genannt. Sprache ist nach Sehen einer der effizientesten Wege, um Informationen zu übermitteln. Daher ist auch Sprachverarbeitung sehr interessant im Bereich künstlicher Intelligenz.

Dabei deckt NLP sowohl Sprache als auch Text ab. Ziel ist es nicht nur, den Text selbst zu extrahieren, sondern vor allem auch Zusammenhänge innerhalb der eingesetzten Information.

Ein Beispiel für die Verarbeitung von Sprache im Bereich der künstlichen Intelligenz, im speziellen Text-to-Speech und Speech-to-Text, sind virtuelle Assistenten wie Siri oder Alexa. Beide basieren darauf, dass natürliche Sprache in digitale Information und zurück übersetzt werden kann, um mit anderen Informationsquellen wie dem Internet zu interagieren.

Ein anderer sehr bekannter Anwendungsfall für KI im Bereich NLP ist die Sentiment-Analyse. Hierzu werden Wörtern bestimmte emotionale Konnotationen zugewiesen (zum Beispiel ist das Wort “versagen” negativ konnotiert) und nachfolgend mit diesem Modell neue Texte zu analysieren. Dies erlaubt es, zum Beispiel im Service-Bereich E-Mails nach Kategorie und/oder Wichtigkeit zu klassifizieren.

Datentypen: Strukturiert und unstrukturiert

Einer der Vorteile von künstlicher Intelligenz ist, dass nicht nur strukturierte, sauber in Datenbanken erfasste Daten verarbeitet werden können, sondern auch unstrukturierte Daten wie zum Beispiel Bilder, Text, Video oder Audio zum Einsatz kommen.

Diese Varianz an Datentypen findet sich auch in den dargestellten Verarbeitungsmethoden wieder: Sowohl Klassifikation und Clustering als auch Signalverarbeitung arbeiten oft direkt mit unstrukturierten Daten.

Big Data und künstliche Intelligenz

In Kombination der hohen Kompatibilität von KI mit Datentypen geht auch einher, dass andere Faktoren von Big Data wie Volumen oder Geschwindigkeit auch in der künstlichen Intelligenz eine Rolle spielen.

Viele eingesetzte Methoden in der KI sind speziell darauf ausgelegt mit großen Datenmengen umzugehen. Denn generell gilt der Grundsatz: Umso mehr Daten, umso höher die Varianz der verarbeitenden Daten, umso besser die Analyse.

Somit ist insgesamt künstliche Intelligenz nicht nur im Stande mit Big Data umzugehen, sondern große Datenmengen fördern sogar die Ergebnisse von KI.

Beispiele für den Einsatz von künstlicher Intelligenz

Spam-Erkennung

Einer der häufigsten Anwendungsfälle, die aber kaum jemand oberflächlich sieht, ist die Erkennung von Spam. Vor 10 Jahren war das Internet noch überflutet mit ungewollter Werbung aller Art, inzwischen trifft man aber noch kaum auf derartige Nachrichten. Egal ob bei Social Media, YouTube oder E-Mail Anbieter: Spam wurde die letzten Jahre mittels künstlicher Intelligenz sukzessive verringert und inzwischen fast komplett entfernt. Die eingesetzten Methoden sind vor allem Machine Learning Modelle, gegebenenfalls unterstützt von einfacher Statistik.

Virtuelle Assistenten

Virtuelle Assistenten wie Siri oder Alexa sind ein sehr schönes Beispiel für den Einsatz von künstlicher Intelligenz. Sie kombinieren Text-to-Speech mit Speech-to-Text, damit die Geräte die verbalen Äußerungen der Menschen verstehen und strukturierten Inhalt wiedergeben können. Dazu wirken noch tiefergehende neuronale Netze zum Verständnis von verbalen Äußerungen – wie zum Beispiel der Unterschied von “spielen” in den unterschiedlichen Kontexten wie Musik oder Games.

Gesichtserkennung

In älteren Büchern als Dystopie dargestellt, umgibt uns Gesichtserkennung inzwischen immer mehr. Nicht nur vom Staat und der Polizei eingesetzt, sondern in immer mehr Produkten verankert basiert die Face Recognition auf Image Processing und Deep Learning. Dass es auch negative Ausmaße annehmen kann, sieht man am Beispiel China: Dort wird Gesichtserkennung vollumfänglich eingesetzt, um einen “Social Score” zu implementieren. Dieser Score wird durch das Verhalten der Menschen definiert – also wo sich wer weswegen aufhält – und erlaubt oder verhindert bestimmte Aktionen in der Gesellschaft. Und dieses Beispiel ist dann wirklich nah an einer Dystopie.

Vorhersage von Umsatz

Die Prädiktion von Zahlen ist einer der Kernanwendungsfälle für KI. Mittels Time Series Analysis oder auch anderen ML-Algorithmen wird der Versuch gestartet, schon vorher zu wissen wie sich das Unternehmen entwickelt.

Ein besonderer Augenmerk wird hierbei oft auf den Umsatz gelegt. Ob nun Gesamtumsatz für eine Organisation oder auf Produktkategoriebasis: Wenn man abschätzen kann, wie sich das Geschäft entwickelt, kann man entsprechend in Operations oder Marketing reagieren.

Vorhersage von Produkt-Lebensdauer

Ein sehr häufiger Anwendungsfall in der Industrie 4.0 ist die Vorhersage von Produkten. Basierend auf den Herstellungs- und Nutzungsdaten werden Machine Learning Modelle trainiert, die versuchen zu definieren, wann ein Produkt kaputt geht. 

Ob nun ein Auto, eine Produktionsmaschine oder ein Elektronikgerät – alle Produkte liefern Daten und können anhand ihres Einsatzes eine unterschiedliche Lebensdauer an den Tag legen.

Der Vorteil zu wissen wann ein Produkt repariert oder gewartet werden sollte, erlaubt für mannigfaltige Einsatzzwecke. Ob nun die so-genannte Predictive Maintenance, die Wartung terminiert bevor eine Maschine an ihre Grenzen stößt oder die Lieferung von Ersatzteilen an Konsumenten bevor etwas zerbricht – es gibt viele Aspekte, wie man hiermit Kosten senken und die User Experience erhöhen kann.

Zusammenfassung

Zusammenfassend möchten wir künstliche Intelligenz noch einmal einfach erklären:

  • Künstliche Intelligenz simuliert menschliche Kompetenz
  • KI kann einfache Algorithmen wie Regeln oder Bildverarbeitung umfassen, aber wird meist mit maschinellem Lernen assoziiert
  • Durch die Fähigkeit, vollautomatisch, hochperformant und auf nahezu unendlichen Mengen an Eingaben Entscheidungen zu treffen, ist KI so attraktiv
  • Ein weiterer Vorteil ist die Fähigkeit nicht nur strukturierte, sondern auch unstrukturierte Daten wie Bild und Ton zu verarbeiten
  • Besondere Beispiele sind Spam-Erkennung und Klassifikation, Virtuelle Assistenten, Videoverarbeitung oder Vorhersagen von Umsatz oder anderen numerischen Metriken

Wie man sehen kann und wir eingehend erläutert haben, wird künstliche Intelligenz in den kommenden Jahren immer mehr in unser alltägliches und auch wirtschaftliches Leben integriert werden. Die Gefahr, dass dadurch der Mensch vollständig verdrängt wird ist dabei sowohl technologisch als auch kognitiv relativ gering. Die Chancen hingegen – vollautomatisierte Prozesse, übermenschliche Performanz auf Spezialproblemen und Entlastung des Menschen in vielen repetitiven Bereichen – sind äußerst attraktiv. In Summe freuen wir uns auf die Erfolge die künstliche Intelligenz, Machine Learning, Data Science und Big Data in den kommenden Jahren bringen werden.

Veröffentlicht am

Was ist Explainable AI (XAI)? Alles was man wissen muss

Programmier-Code auf Bildschirmen von denen eine Brille liegt

Explainable AI (XAI) beschreibt die Herausforderung, dass Menschen verstehen wieso ein Algorithmus der künstlichen Intelligenz eine Entscheidung trifft. Die Frage nach dem “warum” soll nachvollziehbar und interpretierbar beantwortet werden können. Als Lösung gibt es Algorithmen die direkt transparent agieren oder solche, die im Nachhinein (post-hoc) erklärbar gemacht werden müssen. Wir definieren XAI, zeigen die Wichtigkeit der Erklärbarkeit und einige Lösungsansätze.

Definition von Explainable AI (XAI)

Explainable AI (XAI) beschreibt die Frage nach der Erklärbarkeit von künstlicher Intelligenz. Mit zunehmendem Einsatz von künstlicher Intelligenz steigt auch die Frage nach der “inneren Mechanik” von KI. Diese Frage – “wie funktioniert KI?” bzw. “wie kommt die KI zu diesem Ergebnis” ist die Grundlage von XAI. 

Generell beschäftigt sich das Problem von erklärbarer KI mit sogenannten “Black Box”-Algorithmen wie Neuronalen Netzen und Deep Learning. Bei dieser Art von AI ist zwar sowohl die Funktionsweise des Algorithmus als auch die finalen Werte der Parameter bekannt, allerdings nicht wieso dieses Ergebnis erreicht wurde. Bei Millionen von Parametern, die bei einem Trainingsvorgang angepasst werden, ist die Gewichtung nicht mehr zu einem größeren Bild nachzuvollziehen. 

Folglich sind die Zusammenhänge weshalb ein Gewicht einen bestimmten Wert hat und wie dieses in das Gesamtmodell einzahlt nicht mehr zu erklären. Dies ist der Kern von Explainable AI: Weshalb wird durch die künstliche Intelligenz ein Ergebnis ausgegeben.

Beispiele für die Wichtigkeit von Explainable AI

Explainable AI spielt in mehreren Bereichen eine zunehmend wichtige Rolle. Im Groben geht es immer darum, zu verstehen wie und weshalb Entscheidungen getroffen werden. Möchte man dieses Wissen zur Interpretation der Ergebnisse nutzen, benötigt man einen “durchsichtigen” Algorithmus. Genauer spielen folgende Themen eine Rolle:

Optimierung des Algorithmus

Umso besser man versteht, wie ein Modell konstruiert wurde, umso einfacher ist es ein Modell zu verbessern. Iterative Verbesserung durch mehr Daten, höhere Varianz, besseres Trainingsmaterial oder ähnliches zählt zum Standardprozess im Bereich Data Science. Diese Aufgaben sind einfacher zu erledigen, so man das aktuelle Modell einfach nachzuvollziehen kann.

Vertrauen in die Ergebnisse

Eine der Hauptfragen an Blackbox-Modelle ist “können wir diesen Ergebnissen vertrauen?”. Speziell die Nachvollziehbarkeit von Berechnungen hat einen gewissen Sicherheitsfaktor. Ganz offensichtlich ist das bei einem mehrschichten Deep Learning Modell nicht mehr der Fall, weshalb manche Data Scientists sogar ganz Abstand von solchen Algorithmen nehmen.

Auswirkung auf nachfolgende Prozesse

Einer der Kernaspekte von Advanced Analytics ist, dass man Prozesse verstehen und verbessern möchte. Dazu analysiert man Daten, vor allem um Hebel zur Verbesserung zu identifizieren. In einem Blackbox-Modell ist man allerdings auf den Output beschränkt. Somit kann man nicht Verbesserungspotential ableiten, was diese unerklärbaren Modelle unattraktiv macht.

Explainable AI im Zuge von Ethik der KI

Ein weiterer Aspekt, weshalb explainable AI an Relevanz gewinnt ist die Frage nach Ethik in der Anwendung von künstlicher Intelligenz. Als einfaches Beispiel wird oft ein Rekrutierungsmodell angeführt, das auf Geschlecht und/oder Hautfarbe diskriminiert. Nicht weil er dahingehend beeinflusst wurde, sondern einfach weil die Trainingsdaten einen Bias in diese Faktoren haben.

Nun ist die Herausforderung, solche “Fehler” in der Modelloptimierung überprüfen und korrigieren zu können. Aus rein ethischen Gesichtspunkten sollten zentral eingesetzte Algorithmen auch eine Nachvollziehbarkeit gewährleisten. Speziell so sie über oder im Bezug auf Menschen Entscheidungen treffen. Folglich ist die Anforderung an XAI auch in diesem Punkt zentral: Die Modelle nachvollziehbar machen.

Lösungsansätze für XAI

Es gibt im Prinzip zwei Kategorien von Lösungsansätzen um die Erklärbarkeit von künstlicher Intelligenz zu gewährleisten: Ante-Hoc und Post-Hoc. Ante-Hoc bedeutet “Vorher”, also von Grund auf interpretierbare Modelle. Post-Hoc Ansätze versuchen BlackBox-Modelle im Nachhinein erklärbar zu machen.

Ante-Hoc XAI: Transparente Modelle

Es gibt eine ganze Reihe an inhärent interpretierbaren Modellen. Die Idee in allen ist, die Berechnung und Parameter direkt zu quantifizieren und auf einem interpretierbaren Maß zu halten. Folgende Kategorien werden üblich unterschieden:

  • Erklärbare klassische Modelle: Sehr bekannte Modelle im Bereich Data Science sind zum Beispiel Regressionen oder Entscheidungsbäume und Random Forests. Hierbei wird zum Beispiel die erklärbare Varianz einer linearen Regression genutzt, um die Einflussfaktoren zu verstehen.
  • Generative Additive Modelle (GAMs): GAMs erlauben es, die Gewichtung einer jeden Input-Variable zu identifizieren. Folglich wird auch gerne auf eine Visualisierung mittels Heatmap zurückgegriffen, was die Ergebnisse besonders für Menschen zugänglich macht.
  • Hybride Modelle: In hybriden Systemen werden gerne regelbasierte Methoden mit Machine Learning Methoden kombiniert. Dabei wird versucht einzelne Unteraufgaben von intransparenten Modellen zu lösen, während die Interpretation durch transparente Methoden gelöst wird.

Post-Hoc XAI: Erklärung von Blackbox-Modellen

Die Herausforderung von Post-Hoc XAI ist, ein Blackbox-Modell nachträglich quantifizierbar zu machen. Hierbei werden verschiedene Methoden angewandt, die entweder während dem Training mit-”protokolliert” oder zum Beispiel nochmal das gesamte Modell durchläuft um es zu quantifizieren. Folgende Methoden werden üblich zur Erklärung von Blackbox-Modellen eingesetzt: 

  • LIME: Die “Local Interpretable Model-Agnostic Explanations”, zu Deutsch “lokale, interpretierbare, modell-agnostische Erklärungen”, haben den Selbstanspruch alle Modelle erklärbar zu machen. Die Idee ist, ein vorliegendes Modell (“local”) für einen Menschen verständlich zu machen (“interpretable”). Dabei soll es ohne Wissen über ein spezifisches Modell (“model-agnostic”) agieren. Praktisch wird zum Beispiel ein linearer Classifier auf die Ergebnisse neuronalen Netzes geschalten, um diese interpretierbar zu machen. Dies senkt zwar die Genauigkeit des Modells, erlaubt aber ganz im Sinne von XAI eine Interpretation.
  • Kontrafaktische Methode: Die “Counterfactual Method” nutzt die Tatsache, dass der Output eines Modells das direkte Ergebnis des Inputs ist, um KI erklärbar zu machen. Konkret heisst dies, dass gezielt Input-Elemente (zum Beispiel ein Attribut oder ein Bild) manipuliert werden, bis man eine Änderung des Outputs (z.B. andere Klassifikationsklasse) beobachten kann. Wiederholt man diese Methode systematisch, kann man erarbeiten, welche Feinheiten im Input den Output erklären.
  • Layer-wise Relevance Propagation (LRP): Während die Counterfactual Method am Input manipuliert, versucht LRP die Erklärbarkeit durch eine “Backpropagation”, also Rückwärtsverteilung zu gewährleisten. Hierzu wird in einem neuronalen Netz der Output auf die gewichteten Knoten aus der Schicht zuvor zurückgeführt. Dies erlaubt es, die wichtigsten Knoten-Kanten-Kombinationen zu identifizieren und somit den größten Einfluss von bestimmten Teilen des Inputs zu markieren.
  • Partial Dependen Plot (PDP): Diese Methode wurde 2001 von J.H. Friedman entwickelt und zeigt, welchen Effekt Features auf den Output des Modells haben. Genauer kann ein PDP zeigen, ob das Verhältnis zwischen Target und Feature linear, monoton oder komplex ist. Einfach gesagt werden ein oder zwei Input-Features mit dem Output in einem Graph geplottet; und man kann sehr einfach erklären, welche Abhängigkeit zwischen diesen Entitäten herrscht.
  • Rationalization: Besonders interessant sind auch Herangehensweisen, bei denen Blackbox-Maschinen (zum Beispiel ein Roboter) ihre Handlungen selbst erklären können. Dazu bedingt es einer tieferen Rechenschicht, die protokolliert, weshalb eine Handlung auslöst und diese Information dem Menschen erklärbar macht.
  • Weitere Methoden: Neben diesen bekannten Methoden gibt es eine ganze Bandbreite an weiteren Herangehensweise für explainable AI, zum Beispiel Individual Conditional Expectation (ICE), Accumulated Local effects (ALE), Feature Interaction, Permutation Feature Importance, Global Surrogates, Scoped Rules, Shapley Values, Shapley Additive exPlanations (SHAP) und einige mehr.

Zusammenfassung des Artikels “Explainable AI”

Das Ziel von “erklärbarer” bzw “interpretierbarer” KI ist, dass man als Mensch nachvollziehen kann, weshalb ein Algorithmus zu einem Ergebnis kam. Dabei gibt es Methoden die grundsätzlich in die Kategorie explainable AI fallen (zum Beispiel lineare Regression oder ein Entscheidungsbaum) oder solche, die Post-Hoc, also im Nachhinein erklärbar gemacht werden müssen. Beispiele dafür sind vor allem Neuronale Netze oder sehr komplexe Systeme wie im Reinforcement Learning üblich. In allen Fällen gilt es mittels explainable AI die Entscheidungsformierung in einem künstlichen System erklärbar zu machen, um ethische Fragen zu beantworten und das Modell zugänglich zu gestalten.

Weitere Information

Einen herausragenden und vor allem kostenlosen Einstieg in das Thema Explainable AI bietet das Online-Buch “Interpretable ML” von Christoph Molnar. Es ist für jeden zu empfehlen, der sich vor allem auch für die mathematischen Hintergründe interessiert: https://christophm.github.io/interpretable-ml-book/

Auch das Fraunhofer Institut hat eine großartige Einführung als Video veröffentlicht: 

Veröffentlicht am

Was ist Synthetic Data? Definition und Beispiele

Mehrere Reihen an Daten

Synthetic Data sind künstlich erzeugte Daten die nicht aus echten Quellen stammen, sondern durch Programme erzeugt wurden. Meist werden synthetische Daten für den Einsatz in Softwareprogrammierung, Analysen oder dem Training von Machine Learning eingesetzt. 

Inhaltsverzeichnis

Definition von Synthetic Data: Künstliche Daten für künstliche Intelligenz

Synthetische Daten sind Datensätze, die künstlich generiert werden und nicht auf echten Messungen oder Datenerhebungen beruhen. Diese erzeugten Daten stammen meist aus Simulationen oder werden spezifisch für Datenauswertungen, vor allem im Bereich Machine Learning, generiert. Aber auch Daten aus synthetischer Musik oder Flugsimulatoren fallen in die Kategorie “Synthetic Data”.

Synthetische Daten können auf viele Arten generiert werden. Das einfachste Prinzip ist eine manuelle Kreation, zum Beispiel um Software zu testen. Entsprechend fortgeschrittener sind regelbasierte Modelle, die sich an Datenbanken bedienen oder on-the-fly Daten generieren (“partially synthetic data”).

Die künstlichen Daten sind jedoch am wertvollsten, wenn sie nicht aus vorher festgelegten Werten erzeugt sondern tatsächlich neu generiert werden(“fully synthetic data”). Dies setzt statistische Modelle (z.B. Verteilungen), besser noch ein Deep Learning Netz, das variable Daten (z.B. Bilder oder Videos) erzeugt, voraus. Diese Art von Daten werden basierend auf vorher definierten statistischen Verteilungen oder dem Trainingsinput des Neuronalen Netzes erzeugt und sind somit komplett neu geschaffene Informationen.

Einfach gesagt sind Synthetic Data Inhalte, die algorithmisch erzeugt wurden. Diese synthetischen Daten werden dann in einer Vielzahl an Anwendungen eingesetzt. Machine Learning / Deep Learning, das Testen von Software, die Weitergabe von anonymisierten personenbezogenen Daten oder Datenmodelle zu bedienen sind alles häufige Einsatzzwecke von künstlichen Daten.

Vorteile und Einsatz von synthetischen Daten

Es gibt mehrere Gründe, weshalb man künstlich generierte Daten einsetzen möchte:

  • Geringe Menge an realen Daten: Hat man nur eine geringe Menge an realen Daten einer bestimmten Kategorie, kann dies gegebenenfalls zu wenig für bestimmte Anwendungen sein. Zum Beispiel das Testen von Event Streaming Infrastructure lässt sich schwierig mit einzelnen Geräten testen. Daher werden oft synthetische Daten in Form von einfachen Generierungen genutzt, um die Architektur einem Lastentest zu unterziehen.
  • Vertrauliche Daten: Ein besonderes Beispiel sind die Weitergabe und/oder Analyse von vertraulichen, besonders auch personenbezogenen Daten. Durch DSGVO und andere Initiativen ist die Hemmschwelle, kritische Daten weiterzugeben, gestiegen. Um dennoch Analysen zu erlauben, kann Synthetic Data helfen. Reale Daten werden entweder durch künstliche Daten ersetzt, ergänzt oder erweitert und bilden somit eine Analysebasis, beinhalten aber nicht die kritischen Informationen.
  • Transferlernen für Machine Learning Modell: Transferlernen im Bereich Machine Learning bedeutet, dass Modelle auf einen Datensatz trainiert, dann aber auf einen anderen angewandt werden. Dies ist eines der Hauptanwendungsgebiete für Synthetic Data. Es werden entweder aufgrund des mangelnden Umfangs oder des schwierigen Zugriffs auf vorhandene Daten synthetische Daten eingesetzt.
  • Menge und Dauer der Datenerzeugung: Wenn eine synthetische Datenerzeugung aufgesetzt wurde, ist es ein leichtes sehr große Mengen an Daten in sehr schneller Zeit zu generieren. Somit kann sehr flexibel auf sich ändernde Situationen reagiert werden und/oder mehrere Datensätze eingesetzt werden.
  • Machine Learning Labeling: Supervised Machine Learning benötigt Labels, um Vorhersagen zu treffen. Derartige Annotationen zu generieren ist meist jedoch sehr aufwendig und kostspielig, so es von Menschen gemacht wird. Eine Lösung dafür sind entweder Self-Supervised Learning Algorithmen, eine andere der Einsatz von Synthetic Data, um mit den erzeugten Daten direkt die dazugehörigen Labels mitzuliefern.
  • Erhöhung der Varianz von Daten: Overfitting ist ein klassisches Problem in der statischen Modellierung. Durch den Einsatz von synthetischen Daten kann die Varianz im Training erhöht und somit Overfitting vermieden werden.

Beispiele für Synthetic Data

Mehrere Menschen blicken auf Bildschirme
Generative Neuronale Netzwerke, Veränderung von personenbezogenen Daten oder Schutz vor Overfitting sind nur drei Beispiele für den Einsatz von Synthetic Data.

Im Folgenden einige Beispiele, wie synthetic data erzeugt oder eingesetzt werden. Wir versuchen hier eine Bandbreite an Einssatzzwecken aufzuzeigen, jedoch gibt es selbstverständlich wesentlich mehr als nur diese:

  • Artificial face generation: Unter https://thispersondoesnotexist.com/ findet man einen auf GANs (General Adversial Neural Networks) basierenden Generator für Gesichter. Keiner der dort gezeigten Menschen existiert wirklich, sondern alle wurden synthetisch erzeugt. Ein sehr gutes praktisches Beispiel für Synthetic Data.
  • Personenbezogene Daten: Oft werden personenbezogene Daten anonymisiert, bevor die Daten weitergereicht oder weiterverarbeitet werden. Dadurch verliert man jedoch meist einen großen Teil an Informationen. Ein Alternativweg kann sein, dass man basierend auf den realen Daten ein Modell erschafft, das synthetische Daten zu den jeweiligen Einträgen erfasst. 
  • Objektveränderungen gegen Overfitting: Im Bereich Object Recognition / Object Classification ist oft ein Mangel an Trainingsmaterial ein großes Thema. Zum Beispiel hat man nicht eine riesige Auswahl an Autos in allen Farbspektren, es fehlen Daten bei denen bestimmte Teile des Autos dreckig oder verdeckt sind oder die Belichtungsbedingungen sind nicht komplett. Daher wird hier oft durch Bildveränderungen Synthetic Data erzeugt, die zusätzlich zu den Originaldaten im Training eingesetzt werden, um Overfitting zu vermeiden.

Weitere Informationen

Video zum Thema Synthetic Data und dessen Historie

Synthetic Data mit python / Pandas erzeugen

Veröffentlicht am

Was sind Deep Fakes und wie funktionieren sie?

Eine Kamera die eine Person aufnimmt

Deepfakes sind künstlich erzeugte Inhalte (z.B. Videos), die sich von realem Material kaum unterscheiden lassen. Ihre Erstellung basiert auf künstlicher Intelligenz, genauer neuronalen Netzen, und kann aus existierendem Material neue Versionen mit anderen Personen, Sprachen oder Inhalten erstellen.

Die Gefahr von Deepfakes ist dabei nicht gering: Sowohl für Privatpersonen als auch die Politik können gefälschte Inhalte schnell Schaden anrichten. In diesem Artikel diskutieren wir die Methodik hinter Deepfakes, die Gefahr, aber auch die Maßnahmen die dagegen eingesetzt werden.

Inhaltsverzeichnis

Was sind Deepfakes? 

Deepfakes sind Videos, Bilder oder auch Ton, der künstlich erzeugt wurde und keine Wahrheitsgrundlage hat. Der Begriff “Deepfakes”, auf Deutsch “tiefe Fälschungen”, setzt sich zusammen aus den Begriffen “Deep Learning“, eine Methode im maschinellen Lernen und “Fakes”, einem Kunstbegriff für Fälschungen.

Deep Learning ist die technologische Basis für die Erstellung von Deep Fakes, also werden künstliche neuronale Netze eingesetzt, um von vorhandenem Material (zum Beispiel Videomaterial) ein sogenanntes Modell zu kreieren, welches dann neues Material erzeugen kann. Da das Modell ein abstraktes Konzept darstellt, bedeutet dies auch, dass dadurch komplett neues und nicht-geplantes Material erstellt werden kann. 

Der Ursprung von Deepfakes sind autoencoders oder Generative Aversial Networks (GANs), die in 2013 konzeptualisiert wurden. Erst 2017 erfuhr das Deepfake-Konzept breitere Aufmerksamkeit und der Begriff  wurde gebräuchlich. Während die generelle Idee von Medienfälschung keine neue ist, gehen Deepfakes über die herkömmlichen Methoden weit hinaus, da damit sehr komplexe und realistische Fakes wie zum Beispiel Austausch der Stimme oder des Körpers möglich gemacht werden.

Wie kann man Deepfakes erstellen?

Im Grunde benötigt man für Deepfakes nur Basismaterial, von dem das neuronale Netz lernen kann. Dies können vorhandene Videos oder Bilder sein. Umso höher die Datenmengen (Big Data), umso besser, denn basierend auf mehr Information kann der Algorithmus besser lernen. Ausführlichere Information wie die algorithmische Grundlage von künstlichen neuronalen Netzen ist, findet ihr in unserem Artikel “Künstliche neuronale Netze und Deep Learning einfach erklärt“.

Da allerdings nur wenige sich mit der Programmierung von Autoencodern beschäftigen möchten, gibt es inzwischen auch mehrere Programme die es möglich machen, Deepfakes ohne großes Vorwissen zu erstellen. An vorderster Front sind momentan chinesische Apps wie “Zao” oder der kommerzielle Anbieter “Deepfakes web β“. Generell gilt es jedoch, Vorsicht walten zu lassen, da der Hype rund um Deepfakes auch viele zwielichtige Anbieter hervorbringt, die die Neugierde von Menschen gerne ausnutzen und Viren installieren oder ähnliches.

Welche Einsatzzwecke gibt es für Deepfakes?

Generell können Deepfakes nicht nur für “Fakes” genutzt werden, sondern haben auch sinnvolle Anwendungsgebiete. Die Generierung von Inhalt könnte, falls von entsprechend hoher Qualität, vor allem im Bereich der Medienproduktion einen Umbruch erwirken. GANs werden beispielsweise bereits jetzt als kreativer Input für Produktdesign und -entwicklung eingesetzt. Auch große Firmen wie Zalando nutzen generative Netze um ihre Kleidung nicht mehr in alle Farben fotografieren und pflegen zu müssen, sondern mittels Machine Learning schnell und einfach visuell zu erstellen.

Aber auch für Deepfakes im speziellen gibt es zahlreiche Ideen. Zum Beispiel das “Nachfilmen” in der Filmproduktion könnte mittels Deepfakes realisiert werden, statt aufwendig alle Schauspieler an wiederaufgebaute Sets zu schaffen. Aber noch viel interessanter finde ich den Gedanken, dass Filme vielleicht bald vollpersonalisiert sind. Die Handlung bleibt bestehen, aber die Schauspieler kann man beliebig austauschen.

Welche Gefahr geht von Deepfakes aus?

Aber nebst dieser positiven Betrachtung geht von Deepfakes im Status Quo erstmal erhebliche Gefahr aus. Das sieht man alleine daran, wo sich das erste, hauptsächliche Anwendungsgebiet formiert hat: Die Erstellung von unechter Pornographie. Viele Prominente wurden inzwischen in zweifelhafte Filme “projiziert”, um der Vorstellung von manchen Personen auch visuell zu entsprechen. Umgemünzt auf den Privatbereich kann dies auch schnell zum generellen Problem werden, wenn plötzlich Nacktbilder oder Pornos auftauchen von Menschen, die damit nichts zu tun haben. Die Dementier-Mühe und der Versuch der Strafverfolgung stehen selbstverständlich in so einem Fall in keinem Verhältnis zur Einfachheit, wie solche Deepfakes produziert und verbreitet werden können.

Während in diesen Fällen eher Privatpersonen den Schaden tragen würden, gibt es auch keine gesamtgesellschaftliche Gefahr bei Deepfakes. Bisher sind Fakenews quasi nur in Schriftform zu finden, aber mittels Deep Learning können bald Videos oder Audioaufnahmen die Runde machen, die täuschend echt wirken. Ein einfaches Beispiel wäre die Verkündigung von Angela Merkel von Schutzzöllen, Grenzzschließungen oder sogar einer Kriegserklärung. Selbst wenn langfristig identifiziert werden könnte, dass es sich um Fakes handelt, ist der initiale Schaden nicht auszudenken.

Und das schlimmste ist im Endeffekt die Umkehr der Problematik. Wenn wir in Zukunft in einer Welt leben, in der alles ein Deepfake sein kann, werden viele Menschen Probleme haben, die Realität davon unterscheiden zu können. So kann es dazu kommen, dass Menschen reale Dinge als Fake abtun würden, die sie sehr wohl betreffen oder andere Dinge glauben, obwohl sie Fake sind. Diese Undurchsichtigkeit der Wahrheit wird somit nicht nur sozial, wirtschaftlich und gesellschaftlich Auswirkungen haben, sondern auch ganz klar psychisch.

Welche Maßnahmen gibt es gegen Deepfakes?

Wie zu erkennen ist, können Deepfakes ernstzunehmende Probleme auslösen. Im Groben gibt es drei Stoßrichtungen bei der Reaktion auf Deepfakes: Rechtliches, Detektion und Verbreitung. Der erste Punkt ist das Vorgehen, dass diejenigen die Deepfakes erstellen und verbreiten zur Rechenschaft gezogen werden können. Die Richtlinien und entsprechend auch Strafen variieren stark: Die USA zum Beispiel stellt zum Beispiel explizit Deepfakes mit Bezug zu Personen des öffentlichen Lebens oder Fakes mit sexuellen Darstellungen unter ein Verbot. China hingegen erfordert die Kennzeichnung von Deepfakes – sonst drohen empfindliche Strafen für Verbreiter und Plattform gleichermaßen. In anderen Staaten wie Kanada und dem Vereinigten Königreich gelten weniger spezifische Regeln, Deepfakes sind aber gleichermaßen strafrechtlich verfolgbar.

Die zweite Herangehensweise ist die Detektion von Deepfakes mittels anderer Algorithmen. Hierzu werden einfache Ungereimtheiten wie falsche Helligkeiten oder Schatten in Videos detektiert und somit als Fake gekennzeichnet. Selbstverständlich kommt auch hier wieder Deep Learning zum Einsatz. Während die Idee, Algorithmen gegen Algorithmen kämpfen zu lassen sehr futuristisch-Interessant ist, gleicht diese Herangehensweise jedoch einem technologischen Wettrüsten. So können sich Deepfake-Algorithmen stetig verbessern, indem sie die Deepfake-Detektions-Algorithmen nutzen um eigene Fehler auszubessern, was wiederum eine Aktion auf Seiten der Detektion erfordert. 

Die dritte Herangehensweise ist ein systematischer Ausschluss der Verbreitung, vor allem mittels Verbot durch Nutzungsbedingungen auf Plattformen. Reddit, Twitter, Discord und Vice sind nur ein paar Plattformen, die inzwischen Deepfakes mindestens teilweise ausschließen und Verbreitende Nutzer sperren. Da diese Herangehensweise ebenso auf der Detektion beruht, ist auch dies keine endgültige Lösung.

Als vierte, oft missachtete und daher kaum diskutierte Stoßrichtung möchten wir jedoch die Wissensvermittlung hinzufügen. Wenn man das Bewusstsein über Methoden, Möglichkeiten und somit Existenz von Deepfakes fördert, schafft man es gegebenenfalls auch, dass der mündige Bürger achtsamer mit sowohl eigenem Material (zum Training) als auch fremden Material (als menschliche Detektion) umgeht. Wenn man es also schafft, die digitale Kompetenz der Internetnutzer zu erhöhen und das Prinzip “nicht alles glauben” etabliert, kann der Schaden, den Deepfakes anrichten, besser begrenzt werden als durch andere Methoden.

Weitere Informationen zum Thema Deepfakes

Wer ein Deepfake-Netzwerk in Aktion sehen möchte, für den haben wir ein kurzes Video herausgesucht das sowohl Theorie als auch Praxis in der Erstellung von Deepfakes darstellt:

Veröffentlicht am

Was ist Smart Data? Definition und Erklärung des Begriffs

Ein in der Hand gehaltenes Mobiltelefon mit Analysen

Als Smart Data, auf Deutsch “kluge Daten”, werden Datensätze bezeichnet, die für einen direkten und effizienten Einsatz aufbereitet wurden. Folglich sind Smart Data nicht Rohdaten, sondern Daten die bereits konsolidiert, auf Datenqualität geprüft und im Optimalfall mit aussagekräftigen Analysen verarbeitet wurden. 

Smart Data als Konzept zeigt das Problem in der heutigen Unternehmenswelt auf: Es gibt viele Daten und mit fortschreitender digitaler Transformation stehen diese auch zur Verfügung. Doch gibt es viele weitere Hürden: Von Datenqualität über eine verlässliche Aufbereitung bis hin zur Bereitstellung durch eine nachhaltige Infrastruktur. All diese Aspekte sind auf den ersten Blick auf Data Science, Big Data und Machine Learning nicht sichtbar – aber wenn ein Unternehmen sich mit Advanced Analytics beschäftigt, treten die Herausforderungen schnell zu Tage.

Warum ist Smart Data so wertvoll?

Wie bereits beschrieben beginnt sich die Datenbasis mit zunehmender digitaler Transformation zu etablieren. Doch durch die schiere Mengen an Daten in einem Unternehmen, kombiniert mit den meist geringen Kapazitäten in der Aufbereitung liegen das darin enthaltene Wissen oft brach. Der gemeine Angestellte kann dieses wertvolle “Öl” eben nicht fördern, dafür braucht es Spezialisten wie Data Scientists.

Und dies ist der Knackpunkt: Unternehmen haben viele Daten, bekommen sie aber nicht bereitgestellt, um sie auch einzusetzen. Daher sind alle Datensätze, die in die Kategorie “kluge Daten” fallen, eine wertvolle Addition zum Unternehmen, während die Rohdaten oft eher eine Last sind.

Folglich sind Daten für die meisten Unternehmen erst wertvoll, wenn sie “Smart Data” sind. Erst wenn sie für normale Anwender einsetzbar und verständlich aufbereitet sind, bringen sie Wert in die Organisation.

Der Smart Data Prozess visualisiert

Der Prozess um Daten in Smart Data zu verwandeln folgt sechs Schritten, die vor allem Prozesse aus Data Engineering, Data Governance und Data Science integriert:

  • Datenakquise: Egal ob aus externen oder internen Quellen oder die Generierung von neuen Daten – als erstes müssen Daten generiert und akquiriert werden.
  • Datenkonsolidierung: Teilweise optional, aber üblicherweise werden einzelne Datenquellen miteinander verbunden und auf eine gleiche Granularität gebracht, um ein einheitliches Bild zu liefern.
  • Datenqualitätsanalyse: Hat man die Daten in ihrem Rohformat vorliegen, gilt es erst einmal, die Datenqualität zu überprüfen und gegebenenfalls zu korrigieren.
  • Datenaggregation: Haben die Rohdaten eine hohe Qualität, werden sie meist auf ein aggregiertes Format gebracht. Dies ist sinnvoll für Visualisierung, aber auch für die Vorbereitung von Machine Learning oder anderen Algorithmen als Feature Engineering.
  • Datenauswertung: Ob nun klassische Datenanalyse oder Advanced Analytics mit künstlicher Intelligenz – die Verwertung der Daten und die Überführung in aussagekräftige Informationen steht im Zentrum der Transformation von Rohdaten in Smart Data.
  • Datenbereitstellung: Der letzte wichtige Aspekt wird oft übergangen. Denn es genügt nicht, ein tolles Machine Learning Modell zu kreieren, sondern die Analysen und Modelle müssen auch zum Einsatz kommen. Die Operationalisierung bildet den Abschluss und stellt die entstandenen Daten den relevanten Stakeholdern zur Nutzung zur Verfügung.

Smart Data vs. Big Data: Was ist der Unterschied?

Smart Data wird oft als Evolutionsstufe von Big Data dargestellt. Der Zusammenhang ist, dass sich das generelle Datenpotential und die Wahrnehmung vom Einsatz von Daten durch den Hype rund um Big Data potentiert hat. Im Praktischen stieß man dann jedoch schnell auf viele Herausforderungen, weshalb Smart Data als nächste Stufe definiert ist.

Somit ist der Zusammenhang sehr deutlich, jedoch gilt es nicht, dass Smart Data nur aus Big Data entstehen kann. Jede Art von Daten kann, wenn sie gut aufbereitet ist und Mehrwert liefert, in die Kategorie Smart Data fallen. Daher hat Big Data keine Exklusivität auf die Idee “kluge Daten”.

Smart Data vs. Advanced Analytics: Was ist der Unterschied?

Künstliche Intelligenz, maschinelles Lernen, Prädiktion und Prescriptive Analytics – es gibt viele Ausprägungen von Advanced Analytics. Ähnlich wie bei Big Data ist Smart Data sehr eng mit Advanced Analytics verknüpft, jedoch auch nicht der einzige Anwendungsfall. Auch klassische deskriptive Auswertungen können sehr hohe Auswirkungen haben, so sie genau auf die Bedürfnisse der Stakeholder zugeschnitten sind. Daher ist Advanced Analytics oft eine Art, Daten zu verarbeiten, aber eben nicht die einzige. 

Die Rolle von “klugen Daten” im Unternehmen

Während Smart Data als Begriff sicherlich eine gute Möglichkeit ist, den Unterschied zwischen existierenden und aufbereitenden Daten darzustellen, ist es für uns nur ein Wegbereiter. Das Ziel darf nicht sein, Daten in “Smart” und “Dumb” zu kategorisieren, sondern das holistische Bild zu etablieren. 

Daher ist es wichtig, zu vermitteln, dass rein die Existenz von Daten noch keinen Wert liefert, aber sehr viel Arbeit nötig ist, sie aufzubereiten. Aber es gibt noch viel mehr, um zu verstehen, wie weitreichend der notwendige Einsatz ist.

Veröffentlicht am

Kundenzentrierung in Data Science: Warum sie so wichtig ist

Menschen in einem Workshop

Kundenzentrierung oder datenbasiertes Arbeiten: Oft wird qualitatives Arbeiten als Gegenspieler zu quantitativen Analysen gestellt. Doch schließen sich diese beiden Bereiche gegenseitig wirklich aus? Oder gibt es doch Möglichkeiten zur Kooperation?

Kunden und Daten: Gegenspieler oder Mitstreiter?

Emotionen oder Fakten? Bauchgefühl oder Daten? Qualitativ oder quantitativ? In Unternehmen findet man üblicherweise eine der beiden Strategien: Entweder “Customer Centricity” oder “Data Driven”. Auf der einen Seite steht das Verständnis von Kunden, die Emotionale Intelligenz, das “reinfühlen”. Auf der anderen Seite die harten Zahlen, die Fakten, die Analysen.

Doch müssen die beiden Aspekte Gegenspieler sein? Gibt es nur ein Entweder Oder? Wir sind der Ansicht, dass beide Bereiche – Qualitative und Quantitative Analysen – sich hervorragend ergänzen und somit eher als Mitstreiter denn als Kontrahenten gesehen werden sollten.

Während quantitative, datenbasierte Analysen eine gute Argumentationsgrundlage liefern und mit Sicherheit eine Verlässlichkeit für Entscheidungen bilden, können qualitative Analysen und Interviews den Erkenntnissen noch eine Schicht der “Menschlichkeit” verpassen. Im Optimalfall schafft man es, durch nutzerzentrierte Forschung Dinge zu erfassen, die man nicht durch Daten quantifizieren kann. 

Daher sehen wir, obgleich wir uns hier primär mit den Methoden und Vorteilen von Data Science und einer Data Driven Company beschäftigen, Nutzerzentrierung, Qualitative Research und viele UX-Methoden als sehr wichtige Teilhaber im Prozess, besser für Kunden und Mitarbeiter da zu sein.

Vorteile von Kundenzentrierung im Bereich Data Science

Wir haben es bereits angeschnitten: Data Science als Methode kann sehr stark von Kundenzentrierung profitieren. Hier einige Hauptpunkte, weshalb die Datenwissenschaft mehr Customer Centricity zulassen muss:

  • Mit den Stakeholdern, Nutzern und Kunden: Nur wenn man versucht die Bedürfnisse der Menschen zu verstehen, werden Lösungen für ihre Probleme entwickelt.
  • Förderung der Kultur: Der Einsatz von Daten ist noch immer eine Elfenbeinturm-Schicht in vielen Unternehmen. Genau das Gegenteil muss geschehen: Die Datennutzung muss zur Normalität in der Data Driven Company werden. Und dies geschieht nur, wenn sich möglichst viele Personen verstanden, abgeholt und integriert fühlen.
  • Nicht Technologie ist der Trumpf, sondern die Lösung für ein Problem: Data Scientists stürzen sich gern auf die neuesten Technologien, Systeme und Algorithmen. Doch oft bedeutet dies einen erheblichen Aufwand – der durch sauberes Kundenverständnis vermieden oder reduziert werden kann.
  • Der Wert wird hinten generiert: Generell gilt es zu realisieren, dass das beste technische Produkt keinen Wert generiert, wenn es nicht eingesetzt wird. Daher ist es zentral, “desirable” Produkte zu produzieren, sowohl physisch als auch digital. Nur dann kann man als Unternehmen davon profitieren.

Empfehlungen für Chief Data Officers und Data Scientists

Handgemalte Wireframes für eine Mobile App
Der Einsatz von qualitativen Methoden in Data Science bietet viele Vorteile

Was heisst das konkret, wenn man die Rolle als Chief Data Officer (CDO) oder Data Scientist inne hat? Die Empfehlungen sind klar: Es gilt, das Silo-Denken aufzubrechen und zu prüfen, welche anderen Methoden (z.B. qualitativer Natur) in welchem Prozess (z.B. Definition eines POCs) welchen Effekt haben könnten. Es gilt nicht nur offen für andere Herangehensweisen zu zeigen, sondern diese Offenheit offensiv voran zu treiben und zu fördern.

Im besten Fall werden Datenprodukte somit nicht mehr nur von Daten-Fachexperten (“Nerds”) entwickelt, sondern es bildet sich – ganz gemäß agiler, startup-artiger Arbeitsweise – ein interdisziplinäres Team, das alle Aspekte vom Kunden bis zur technischen Umsetzung und Operationalisierung abdeckt.

Ein Beispiel für das Zusammenspiel von Daten und Kundenzentrierung: Data-Driven Personas

Ein Beispiel wie Kundenverständnis und Daten zusammenspielen können sind Data-Driven Personas. Indem man Kundendaten nutzt, um Verhaltensgruppen zu identifizieren, können schnell und einfach Mehrwerte durch strategische Entscheidungen und Personalisierungen generiert werden. Mehr Infos in unserem KI-Produkte Data-Driven Personas:

Data Driven Customer Centricity: Die Zukunft für Unternehmen?

Zusammenfassend bleibt die Frage: Ist Kombination von qualitativen und quantitativen Methoden, also Data Driven Customer Centricity, die Zukunft für Unternehmen? Während wir den massiven Mehrwert von Daten für die Kundenzentrierung sehen, argumentieren wir auch, dass es mehr Applikationen für den Einsatz von Daten gibt (z.B. Produktdesign, Prozessoptimierung, neue Geschäftsmodelle), als nur das übergreifende Thema Customer Centricity. Von daher sehen wir nach wie vor das Argument, dass ein Unternehmen auf allen Ebenen und in allen Prozessen Daten einsetzen muss, um in Zukunft zu bestehen. Die Kundenzentrierung ist einer davon – aber nicht der einzige.

Veröffentlicht am

Was sind Digital Twins? Digitale Zwillinge einfach erklärt

Digital Twins Header

Ein Digital Twin, auf Deutsch “digitaler Zwilling”, ist eine möglichst detailgetreue, individuelle digitale Repräsentation eines physischen Objekts. Als Objekt kann vieles dienen: Menschen, Maschinen, Fahrzeuge oder Produkte.

Infografik Digital Twins

Infografik Digital Twins
Digital Twins sind das digitale Abbild von realen Entitäten

Inhaltsangabe

Was sind Digital Twins? Definition und Abgrenzung digitaler Zwillinge

Geprägt ist das Konzept “Digital Twins” davon, dass Daten nicht für die Allgemeinheit an Entitäten (z.B. “Wie werden unsere Fahrzeuge genutzt?”) gesammelt werden, sondern vom Entstehungsprozess (z.B. Simulation, Fertigung) über die Logistik (z.B. Bestellung, Lieferung) bis zum Einsatz (z.B. Nutzungsdaten) für jede Instanz aufgenommen und zugeordnet werden.

Das Ziel von digitalen Zwillingen ist es, einerseits eine Nachverfolgbarkeit der Entwicklung von Entitäten zu schaffen (z.B. “Warum ist der Herd schon nach 2 Monaten defekt?”), andererseits natürlich auch direkt mit diesen Entitäten und deren individuellen Historie zu interagieren (z.B. “Dieses Heizelement wurde bisher immer auf Höchstlast eingesetzt, wir müssen den Wartungszyklus verkürzen”).

Einfach gesagt sind Digital Twins die Erfassung und Nachverfolgung von allen entstehenden Daten im Lebenszyklus eines Produkts, einer Person oder einer anderen Entität zur datenbasierten Analyse. Dabei gilt es, die Daten nicht einseitig zu übermitteln, zu erfassen und zu nutzen, sondern bilateral. Die Entität (Produkt, Service, Maschine, etc) übermittelt Daten, empfängt aber gleichermaßen ebenso Daten um diese für sich einzusetzen.

Beispiele für verschiedene Arten von Digital Twins

Beispiele für Digital Twins
Digital Twins können in verschiedenen Bereichen eingesetzt werden

Digital Product Twin: Jedes physisches Produkt hat seinen eigenen Zwilling

Vor allem bei technischen Produkten bietet sich ein digitaler Zwilling geradezu an. Ob nun die Bohrmaschine oder der Herd, das Mobiltelefon oder die Heizungsanlage: Alle diese Dinge produzieren Daten und können durch individuelle Datenanalyse wiederum effizienter eingesetzt werden. Die Datenaufnahme des Digital Twins startet mindestens in der Fertigung, oft schon eher in der Entwicklung, geht dann über die Qualitätskontrolle, die Logistik, den Handel bis zum Endverbraucher und dessen Nutzungsverhalten. Alle Datenquellen müssen kohärent integriert, querverbunden und zusammengeführt werden, um das digitale Abbild des physischen Produkts korrekt zu repräsentieren.

Digital Twins in Manufacturing: Eine Maschine, viele Daten

Ein Anwendungsgebiet von Digital Twins von dem sich viele einen hohen Effekt versprechen ist die Fertigung (Manufacturing). Vor allem große Fertigungsmaschinen bestehen oft aus einer langen Historie an Simulationen, Bauteilen, Teilreparaturen, Einsatzzwecken und vieles mehr. Wenn diese Daten mit Bewegungsdaten (z.B. welche Produkte werden gefertigt, wann wurde wie gewartet) kombiniert werden, erlaubt dies einen 360° Blick auf die Maschine und deren aktuellen Status. Dies erlaubt es, direkt die Effizienz der Fertigung zu erhöhen: Vorausschauende Wartung (predictive Maintenance), Auslastungspläne, Nachverfolgung von Gründen für Ausfallzeit, Produktqualitätskontrolle und vieles mehr. 

Digital Customer Twin: Der Kunde als digitaler Zwilling

Ein weiterer interessanter Einsatzzweck ist die holistische Betrachtung eines Kunden und die Kombination aller Kontaktpunkte die diese Person mit dem Unternehmen hat. Ob nun Bestellungen, Newsletterinteraktionen, Servicekontakt und andere Datenquellen: Die konsolidierte Historie eines Kunden mitsamt Stammdaten und deren Änderungen erlaubt einen hohen Grad an Personalisierung (z.B. Customer Churn Prediction) und ist die Basis für ein hohes Maß an Kundenzentrierung. Heute sind die Daten über Kunden meist in verschiedenen Systemen – oder werden gar nicht strukturiert erfasst.

Digital Services Twin: Wie Dienstleistungen digital repräsentiert werden

Aber nicht nur physische Dinge wie Maschinen, Produkte und Menschen können mittels digitaler Zwillinge repräsentiert werden, sondern auch Services oder Dienstleistungen. Vom Entstehungsprozess über Pricing, vom Verkauf zum Einsatz, von Teilnehmern über Ratings – auch Dienstleistungen können durch eine umfassende verknüpfte Datenhaltung erheblich aufgewertet werden. Dies erlaubt es, das Portfolio des Unternehmens kontinuierlich zu verbessern, Auslastung zu steuern und Querverbindungen zu anderen Twins wie dem Kunden oder Produkt zu ziehen.

Was sind die Vorteile von Digital Twins?

Nachdem das Prinzip dargestellt wurde, möchten wir auf ein paar Vorteile von Digital Twins eingehen:

  • Datenkonsolidierung: Da für jeden Digital Twin alle dazugehörigen Daten erfasst werden, wird sowohl technisch als auch aus Data Governance Sicht eine Art Mini Data Lake kreiert.
  • Erfassung des gesamten Lebenszyklus: Im digitalen Zwilling werden nicht nur Daten der Nutzung erfasst, sondern von Beginn bis Ende des Lebenszyklus.
  • Prozessdokumentation und Optimierung: Indem ein Digital Twin sukzessive aufgebaut wird, kann man direkt darunter liegende Prozesse ableiten und Process Mining betreiben.
  • Hohe Granularität: Individuell erfasste Daten haben zudem eine sehr hohe Granularität, die mehr Anwendungsfälle als aggregierte Daten erlauben.
  • Einsatz für Data Science: Durch die Konsolidierung aller zu einer Entität gehörigen Daten, hat man ein großes Anwendungsfeld für Advanced Analytics, Machine Learning und mehr.

Abgrenzung Digital Twins und andere naheliegende Konzepte

Die Idee, Daten zu Produkten und Personen zu erfassen ist per se nicht neu. Es gibt selbstverständlich seit Jahren Stammdatensysteme, die Informationen zu Entitäten erfassen, als auch neuere Konzepte wie einzelne Dinge (IoT) kommunizieren. Im folgenden möchten wir kurz auf die Positionierung der Digital Twins in einer Reihe naheliegender technischer Konzepte eingehen.

Was ist der Unterschied zwischen einem Stammdatensystemen (z.B. MDM, PIM, CRM, PLM, PDM) und Digital Twins

Ein Stammdatensystem erfasst die Daten zu Produkten (z.B. Product Information Management, PIM), für jeden Kunden (z.B. Customer Relationship Management, CRM) oder auch zum Entstehungsprozess einer Maschine oder Dienstleistung (z.B. Product Lifecycle Management, PLM). Daher ist die Idee von digitalen Zwillingen sehr nah an dieser Art von Systemen angesiedelt. 

Es gibt jedoch drei erhebliche Unterscheidungskriterien zwischen Digital Twins und Stammdatensystemen wie MDM, PIM, CRM, PLM oder PDM.

  1. Stammdatensysteme erfassen oft nur den “Prototyp”, also das generische Produkt (z.B. PIM), nicht jede einzelne Entität
  2. Stammdatensysteme haben selten alle Datenquellen integriert, die zu einem Entitätstyp existieren (z.B. CRM hat selten Daten von Service, Webanalytics, Hotline, Webshop, etc integriert)
  3. Stammdatensysteme folgen einem bestimmten operativen Prozess und bilden nicht die Basis für eine zentralisierte, individuelle, komplette Datensammlung um diese Daten weiterzuverwenden (Advanced Analytics, Data Science, Machine Learning, etc)

Folglich gibt es – je nach Stammdatensystem – gegebenenfalls bereits eine hohe Schnittmenge an Daten, die auch für den Digital Twin genutzt werden können. Das Ziel der digitalen Zwillinge ist jedoch, dass diese Daten konsolidiert, individuell und zur Weiterverarbeitung erfasst werden, was oft nicht deckungsgleich mit Stammdatensystemen ist.

Was ist der Unterschied zwischen dem Internet of Things (IoT) und Digital Twins

Das Internet der Dinge (IoT) ist ein Konzept, bei dem jedes technische Produkt individuell Daten sendet und empfängt, um mittels künstlicher Intelligenz Vorhersagen zu treffen. Diese hyperpersonalisierten Daten eines Endgeräts (Edge Device) sind selbstverständlich sehr wertvoll im Konzept von Digital Twins. Es gibt jedoch zwei Unterschiede zwischen IoT und digitalen Zwillingen: Zum einen fokussiert sich das Internet der Dinge auf die Kommunikation von Geräten im Einsatz, zum anderen deckt IoT keine historischen Daten wie Entwicklung oder verwendetes Material ab. Folglich deckt das Internet of Things zwar den mittleren Teil des Lebenszyklus ab, beachtet aber nicht alle Datenquellen (z.B. Serviceanfragen, Manufacturing Daten) und Vorlaufinformationen.

Was ist der Unterschied zwischen Big Data Analytics / Event Streaming und Digital Twins

Big Data Analytics, vor allem im Zusammenhang mit Event Streaming, ist ein weiteres Konzept das sehr nah am Thema Digital Twins verortet wird. Generell ist es jedoch nur ein Anwendungsfall von den so erfassten Datenmengen: Werden via Event Streaming Daten übermittelt, können die direkt analysiert werden; aber die Zuordnung, Nachhaltung und langfristige Analyse im Zusammenhang auf das individuelle Gerät ist die Erweiterung des Konzept durch digitale Zwillinge.

Beispiel-Architektur eines Digital Twins

Die Architektur für Digital Twins
Die Architektur für Digital Twins unterscheidet zwischen Physical Layer, Twin Layer und Utilisation Layer

Ein Digital Twin kann auf viele Arten aufgebaut werden. Generell gibt es viele Anbieter für derartige Software, andererseits kann das Konzept auch selbst umgesetzt werden. Verallgemeinert besteht die Architektur eines Digital Twins aus drei Ebenen: Dem Physical Layer, dem Twin Layer und dem Utilisation Layer.

Physical Layer

Die physische Ebene ist die reale Manifestierung der Entität. Ob nun Mensch oder Maschine: In jedem Fall produziert die physische Ebene über ihren gesamten Lebenszyklus Daten. Diese Daten gilt es dann zu messen, erfassen und im Twin Layer zu konsolidieren.

Twin Layer

Der Twin Layer ist das Herzstück der gesamten Architektur. Er besteht aus mehreren Datenbanksystemen für strukturierte und unstrukturierte Daten sowie umfängliche Dokumentation. Gleichermaßen wird üblicherweise ein Access Block eingefügt, um den Digital Twin verfügbar für das Utilisation Layer zu machen.

Utilisation Layer

Als Utilisation Layer werden alle Aspekte zusammengefasst, die den Digital Twin einsetzen. Ob Optimierung innerhalb der Fertigung, die Anwendung von künstlicher Intelligenz oder das ausspielen von individueller Software in das physical Layer – alle Vorgehen die Daten des Twins extrahieren und einsetzen, sind hier beheimatet.

Gemeinsam erlauben alle drei Layer die Überführung der physischen Repräsentation in den digitalen Zwilling und dessen Einsatz in einer Vielfalt von Anwendungsfällen. Nur wenn alle drei Ebenen ineinander übergehen erlaubt es ein effizientes Vorgehen bei der Nutzung des entstandenen Mehrwerts.

Die Relevanz von Digital Twins in der Data Driven Company

Digital Twins sind als logische Kombination von Data Lakes und dem Internet of Things eines der neueren Konzepte in der Welt der Daten. Dabei vereinen sie eine Bandbreite an technologischen wie auch konzeptuellen Fortschritten: Individuelle Daten, konsolidiert und dokumentiert als Basis für Anwendungsfälle in Data Science, Automatisierung und Optimierung.

Folglich sind die digitalen Zwillinge eine Richtung in die sich jede Data Driven Company bewegen sollte. Im Optimalfall setzen die digital Twins auf andere Bereiche wie dem Data Lake auf und sind daher in ihrer Implementierung gering, sondern erfordern eher eine Erweiterung des Wirkungsbereichs. 

Sind Digital Twins einmal etabliert, eröffnen sich eine Bandbreite an Applikationen. Von Hyperpersonalisierung über Prozessoptimierung wirkt der Datentransfer in beide Richtungen und fokussiert, wofür die Data Driven Company stehen sollte: Die Generierung von Mehrwert durch Daten.

Veröffentlicht am

Was ist ein Data Lake? Definition, Architektur und Use Cases

Ein See umringt von Bergen

Der Data Lake ist ein neueres Konzept zur Erfassung, Speicherung und Verarbeitung von Daten. In diesem Artikel stellen wir eine Definition des Data Lakes zur Verfügung, diskutieren Vor- und Nachteile, gehen auf konkrete Anwendungsfälle ein und zeigen Möglichkeiten auf, wie die Infrastruktur bzw. Architektur eines Data Lakes aussehen kann. 

Inhaltsverzeichnis

Einfach erklärt: Was ist ein Data Lake?

Als Data Lake (Deutsch: “Datensee”) definiert man eine Kombination von verschiedenen Technologien um eine Bandbreite an Datentypen gemeinsam zu verwalten. Einfach gesagt geht es darum, dass einerseits die aufwendige Vorbereitung von klassischen Datenbanksystemen vermieden wird, andererseits auch einfach unstrukturierte und unverarbeitete Daten gespeichert werden können.

Am einfachsten kann man das Konzept eines Data Lakes so erklären, dass er sich wie eine Festplatte auf einem Computer verhält. Auf der Festplatte kann man alle Arten von Daten speichern und verwalten. Selbst Daten, die man bisher weder kennt noch verarbeiten kann, können dort gespeichert werden. Also kann man Bilder, Videos, aber auch unverarbeitete strukturierte Daten wie CSV einfach ablegen um sie später zu verwenden.

Klassische Datenbanken hingegen wären in dieser Analogie strukturierte Daten, zum Beispiel ein Excel-File. Die Struktur ist vorgegeben, der Inhalt strukturiert erfasst und es lassen sich einfach Analysen und Operationen auf den Daten durchführen, während im Data Lake gegebenenfalls noch weitere Schritte notwendig sind, bevor eine Verarbeitung möglich ist. Interessanterweise kann ein Data Lake durch seine Bandbreite an Technologien wiederum ganze Datenbanken und -systeme enthalten. Also wäre es ganz natürlich, dass auf unserer Festplatte auch aufbereitete Excel-Dateien auftauchen.

Den Ursprung haben Data Lakes als Konzept in einem Artikel von Forbes, bei dem der CTO des ETL-Tools Pentaho den Begriff notiert, um seine Ansicht zur Datenverwaltung zu klassischen Data Marts zu kontrastieren. Seitdem hat sich der Begriff zwar gehalten, aber die ursprüngliche Definition, einfach alle Daten in ein verteiltes Dateisystem wie Hadoop zu kippen, ist mehrfach verfeinert worden.

Um es als eine kurze Definition zusammenzufassen: Ein Data Lake hat zum Ziel, strukturierte und unstrukturierte Daten gleichermaßen in allen Verarbeitungsstufen zu erfassen.

Vorteile eines Data Lake

Dass die Idee eines Data Lakes einsichtig ist, lässt sich kaum bestreiten. Doch was sind konkret die Vorteile einer solchen Architektur, speziell auch im Vergleich zu älteren Datenbanksystemen wie einem Data Warehouse?

Erfassung von unstrukturierten Daten

Eine der Grundideen und nach wie vor einer der Vorteile ist die Erfassung von unstrukturierten Daten im Data Lake. Grundlage hierbei sind vor allem Big Data-typische Datenmengen und Arten, die vor allem auch mittels Data Science weiter analysiert werden sollen. 

Dass unstrukturierte Daten wie Bilder, Videos, Text und mehr in den Fokus von Unternehmen rückt ist einfach durch einerseits die Explosion an Datenmengen zu erklären, andererseits auch ganz klar dadurch, dass immer mehr Unternehmen Data Mining mittels künstlicher Intelligenz betreiben und versuchen einen Mehrwert aus ihren Daten zu generieren.

Erfassung der verschiedenen Verarbeitungsstufen (“Distillierung”)

Ein weiterer wichtiger Aspekt für die Vorteile von Data Lakes ist die Möglichkeit, verschiedene Schritte in der Datenaufbereitung und -verarbeitung als eigenständige Datensätze mit zu dokumentieren. Ob nun Rohdaten, die Konsolidierung verschiedener Datensätze, Aggregation oder wirklich aufbereitete Daten entweder für Dashboards oder Machine Learning: Alle Zwischenschritte können im Data Lake gespeichert und somit mitprotokolliert werden.

Dies hat mehrere Vorteile. Zum einen erlaubt es einfach und schnell nachzuvollziehen wie die verschiedenen Datensätze am Ende entstanden sind, zum anderen kann jeder Zwischenschritt wiederum von anderen Nutzern eingesetzt werden. Fügt zum Beispiel eine Einheit Produkt- und Transaktionsdaten zusammen, können diese auch direkt für andere Zwecke wiederverwendet werden.

Schnelle Speicherung, schneller Zugriff

Da Data Lakes generell dem ELT-Modell folgen, also beim Speichern der Daten kein Datenmodell benötigen, ist es wesentlich einfacher und schneller Daten zu erfassen. Monatelange Diskussionen welches Datenmodell geschickt wäre löst sich mit der Speicherung von Rohdaten schnell auf. 

Das Gleiche gilt im Umkehrschluss für den Zugriff. Sind Rohdaten erst einmal im Data Lake vorhanden, können diese auch schnell und einfach ausgeliefert werden und müssen nicht erst noch umständlich nachträglich aus den Quellsystemen extrahiert werden. 

Der Wert ist noch undefiniert – somit eine hohe Chance bei Wiederverwertung

Direkt anknüpfend an den Vorteil des ELT-Prozesses ist auch der Wert der Daten wesentlich höher, da die Granularität und der Informationsgehalt höher ist. Der Grund ist simpel: Bereitet man Daten auf, kann man Granularität nur verringern und Daten können maximal weggelassen werden. Somit sind Rohdaten generell immer von höherem Wert als aggregierte oder aufbereitete Daten.

Dieser Vorteil war auch seit jeher einer der Gründe für die Speicherung von Rohdaten in einem Data Lake. “Wer weiß, wofür ich diese Daten noch brauchen kann” – diesem Gedanken zu folgen ist erst möglich, seit auch Rohdaten gespeichert werden und nicht nur die transformierten Datensätze ins Business Warehouse übertragen werden.

Entlastung von Quellsystemen

Ein weiteres Hauptargument ist die Entlastung von den Datenquellsystemen. Indem man die Daten vollständig in den Data Lake repliziert, wird das System nur einmal bei der Extraktion belastet, nicht bei jeder Analyse. Dies ist vor allem bei Kernsystemen ein fundamentaler Vorteil: Denn Überlastung eines Kernsystems hat üblicherweise schwerwiegende Folgen.

Reich technisch gesehen sind Data Lakes zudem besser gewappnet für hohe Datenanfragen und können entsprechend skalieren als herkömmliche Software-Tools, die nicht für eine hohe Anzahl an Rohdatennutzern ausgelegt sind.

Abschaffung von Datensilos

Ein letzter Vorteil den wir hier aufführen möchten ist die schrittweise Abschaffung von Datensilos. Indem man die Rohdaten gemeinsam in einen zentralen Data Lake speichert, umgeht man Grenzen in der Verantwortung von Quellsystemen. Dies erlaubt eine Demokratisierung der verfügbaren Daten und schafft einen gemeinsamen Nenner, welche Daten vorhanden sind und wie sie zur Generation von Mehrwert eingesetzt werden können.

Gefahren eines Data Lake

Doch nebst dieser zahlreichen Vorteile gibt es selbstverständlich auch Gefahren beim Einsatz eines Data Lakes.

Der Data Lake wird zum Data Swamp

Die Nutzbarkeit eines Data Lake steht und fällt mit der entsprechenden Datenverwaltung, Data Governance genannt. Nur wenn sauber dokumentiert ist, welche Daten sich im Data Lake befinden, können sie gepflegt und genutzt werden. 

Folgt man dieser strikten Verwaltung nicht, hat man bald keinen Überblick mehr welche Daten in welcher Aktualität in welchen Analysen und Kanälen genutzt werden. Auch die Ownership oder im schlimmsten Fall die Inhalte bzgl. DSGVO-Kompatibilität kann unklar sein.

Übt man also keine saubere Data Governance, verkommt der See zu einem Sumpf von vielen Daten, den keiner mehr durchblickt – metaphorisch Data Swamp genannt. 

Anti-Demokratisierung von Datenanalyse

Eigentlich soll durch die Ablösung von Datensilos ja der Zugriff auf die Daten vereinfacht und somit die Verfügbarkeit verbreitert werden. Der negative Aspekt dabei ist jedoch, dass bei klassischen Business Warehouses and dergleichen meist der Weg zum Self-Service der Daten wesentlich kürzer ist als bei einem aus mehreren hochspezialisierten Technologien bestehenden Data Lake.

Folglich kann man argumentieren, dass durch die nicht-Aufbereitung der Daten in einem Data Lake die Daten auch schwieriger verfügbar sind, vor allem für Nicht-Spezialisten. Da der Weg zum “Citizien Data Scientist” auch noch wesentlich weiter ist als zum “Citizien Data Analyst”, muss genau beachtet werden, wie man die Data Lake Inhalte auch zur Verfügung stellen kann, so dass eine möglichst breite Masse darauf zugreifen kann.

Technologische Überverwaltung

Ein weiterer logischer Punkt gemäß des infrastrukturellen Aufbaus von Data Lakes ist die notwendige Verwaltung der verschiedenen Technologien. Vor allem die Kombination von verschiedenen Systemen und Tools in ein Framework, das es erlaubt, dass die Technologie Hand-in-Hand geht, ist eine große Herausforderung. 

So muss das Ziel sein, dass die Bandbreite an eingesetzten Tools möglichst gering ist, während gleichzeitig alle Anforderungen erfüllt werden wollen. Dies erfordert hoch spezialisierte Enterprise Architekten und Data Engineers, die den Data Lake entsprechend langfristig planen, Standards etablieren und ein Abrutschen in eine Tool- statt Datenzentrierung verhindern.

Hohe Kosten

Dieser Punkt folgt direkt aus dem vorhergehenden. Ein Data Lake hat üblicherweise mehrere Systemkomponenten, die auch von unterschiedlicher Komplexität sein können. Hat ein Data Lake zum Beispiel Tools für die Erfassung von unstrukturierten Daten und strukturierten Daten, muss entsprechend Personal zum Management von beiden Lösungen zur Verfügung stehen. Neben diesen Kosten kommen die üblichen Kosten für Lizenzen und Hardware hinzu. Und auch die Architekturkomponente – welche System wie miteinander interagieren – und die Governance-Komponente darf man als Kostenfaktor nicht unterschätzen.

Data Lake vs. Data Warehouse: Was ist der Unterschied?

Während wir die Unterschiede zwischen dem Data Lake Konzept und einem viel weiter verbreiteten Business Data Warehouse haben bereits mehrfach anskizziert haben, hier nochmal Details zur Unterscheidung zwischen den beiden Prinzipien:

  • Datentypen: Data Lakes verarbeiten alle Arten von Datentypen, egal ob strukturiert oder unstrukturiert, egal ob Bild, Ton oder Tabellen. Data Warehouses sind im Gegensatz auf strukturierte Daten beschränkt.
  • Data Pipelines: Data Warehouses setzen das ETL-Prinzip (Extract-Transform-Load) ein, welches Daten aus Quellsystemen auf ein vorgegebenes Datenmodell anpassen, bevor sie ins Warehouse eingespeist werden. Data Lakes hingegen nutzen das ELT (Extract-Load-Transform), laden also die Daten direkt in ihrer ursprünglichen Rohdatenversion in den Lake.
  • Informationsgehalt: Direkt folgend aus vorherigem Punkt muss in Data Warehouses der Informationsgehalt schrumpfen, da die Transformation immer mit Verlust von Daten einhergeht. Beim Lake hingegen werden alle Daten und somit auch der gesamte Informationsgehalt komplett erhalten. Dies ist besonders relevant beim Einsatz von Machine Learning oder Deep Learning durch Data Scientists, da hier möglichst viele Attribute eingesetzt werden sollen.
  • Self-Service: Der Self-Service der Datenanalyse ist im DWH wesentlich höher, da die Daten strukturiert und zur Verarbeitung transformiert bereit stehen. Im Data Lake hingegen ist der Self-Service auf die Rohdaten selbstverständlich höher, aber jeder Zugriff erfordert generell mehr Expertise.
  • Flexibilität: Egal ob Datenquellen, Attribute oder Anwendungen – ein Data Lake ist darauf getrimmt, hoch flexibel mit neuen Daten umzugehen. Ein Data Warehouse hingegen muss erst durch die verschiedenen Aufbereitungsstufen laufen, bevor neue Daten integriert werden können.
  • Pflegebedarf: Während der initiale Pflegebedarf beim Data Warehouse abschreckend wirkt, erlaubt es, in nachfolgenden Schritten kaum Aufwand bezüglich der Dokumentation und Datenqualität zu betreiben. Der Data Lake hingegen erfordert ein vielfaches an Data Governance und Data Management, um nicht zum Data Swamp zu verkommen.

Noch mehr Details zum Unterschied zwischen Data Lake und Data Warehouse findet ihr in unserem ausführlichen Artikel “Data Warehouse vs Data Lake: Der Unterschied einfach erklärt”.

Use Cases als Beispiele für den Einsatz eines Data Lakes

Nun haben wir relativ ausführlich dargestellt, wie das Konzept eines Data Lakes aussieht und welche Vor- und Nachteile er mit sich bringt. Das wichtigste ist jedoch die Frage: Warum soll eine Organisation überhaupt einen Data Lake etablieren? Hier stellen wir kurz mehrere Anwendungsfälle vor, die direkt in die Idee des Datensees einzahlen.

Analytics, Data Science, Machine Learning

Der Ursprung und vermutlich auch nach wie vor das Hauptanwendungsgebiet eines Data Lakes ist die Nutzung mittels Datenanalyse, Data Science und vor allem Machine Learning. Die Idee ist, dass man einen Zugriff auf möglichst viele Daten in möglichst roher Form besitzt, um diese dann optimal gewinnbringend einzusetzen.

Als Beispiel kann die Kombination von strukturierten und unstrukturierten Daten in einem Machine Learning Modell dienen. Bei klassischen Data Warehouses wären ein Teil der Daten nicht verfügbar, somit müsste auf andere Systeme ausgewichen werden. Diese Systeme würden gegebenenfalls wieder in einer ganz anderen Umgebung laufen, andere Zugänge benötigen und anderes Personal zur Pflege voraussetzen. Daher der klare Vorteil eines Data Lakes, der diese Aspekte mitbringt.

API-Management als Grundlage für Datenverfügbarkeit

Oft sind Unternehmen schon so sehr damit ausgelastet, Daten in einen Data Lake zu replizieren, dass sich wenig Gedanken über die Wiederzurverfügungstellung gemacht wird. Direkter Datenbankzugang oder Systemabhängige APIs sind meist die Lösung der Wahl. Denkt man hingegen einen Schritt weiter, macht es absolut Sinn, eine übergreifende API für die gespeicherten Daten zur Verfügung zu stellen. 

Dieser Anwendungsfall des Data Lakes sieht also die Datenanalyse als nur einen Anwendungsfall der Daten im Data Lake. Weitere Anwendungsfälle können erweiterte Data Pipelines in andere Systeme, die Extraktion von Daten aus einem Legacy System oder die Bereitstellung von Daten für Kanäle (z.B. Website) sein. Wenn dies durch eine API abgewickelt werden kann, lassen sich schnell und einfach Systeme und Datenbanksysteme auswechseln, ohne dass andere Entitäten innerhalb der Data Pipeline davon betroffen sind.

Internet der Dinge und Daten-Streaming

Ein weiteres Beispiel bei dem Data Lakes glänzen ist das Internet of Things (IoT), zu Deutsch Internet der Dinge. Durch Data Streaming muss es kontinuierlich die Möglichkeit geben, neue Daten zu speichern und ggf. auch direkt zu analysieren. In einem Batch-Processing basierten Data Warehouse ist dies kaum möglich, da die Data Pipelines dafür gar nicht angedacht sind. Im Data Lake hingegen muss man “nur” eine High Frequency Datenbank hinzufügen und schon kann man seinen Lake um die Fähigkeit zum Stream Processing erweitern – und ist gewappnet für das Internet der Dinge.

Unstrukturierte Daten rücken immer mehr ins Zentrum

Ein weiterer klassischer Anwendungsfall als direktes Merkmal von Big Data sind die unstrukturierten Daten. Wir sind in einem Zeitalter angekommen, in dem es nicht mehr nur um strukturiert erfasste Information geht, sondern vor allem in der Bandbreite an möglichen “Sensoren” zur Datenaufnahme liegt ungeheueres Potential.

Daher gibt es auch immer mehr Bewegungen, um unstrukturierte Daten zu erfassen, zu speichern und zur Verfügung zu stellen. Ob nun Bild oder Ton, ob Text oder Video – es gibt genug unstrukturierte Daten, dass sich ein umfassendes Beschäftigen mit einem Data Lake auch für diesen Zweck lohnt.

Beispiele für eine Data Lake Architektur

Wir wissen nun was ein Data Lake ist, wir haben ausgeführt wieso ein Data Lake sinnvoll ist – bleibt noch das Wie. Data Lake Infrastruktur ist ein sehr breites, allgemeines Feld, da es keine einzige Lösung gibt, sondern die Architektur eher den Gedanken dem Unternehmen gefügig macht. Dennoch möchten wir hier Beispiele für eine Data Lake Infrastruktur bzw. Architektur zeigen und im Falle von AWS und Azure auch konkret mit Services hinterlegen.

Template der Bestandteile eines Data Lakes

Ein Data Lake hat üblicherweise mehrere Schichten. Ganz Vorne, also am Ursprung, stehen die Quellsysteme. Ein Quellsystem kann ein ERP, ein CRM, eine einfache Textdatei, eine vorhandene Datenbank oder auch ein Stream sein. 

Um diese Quellsysteme in den Data Lake zu integrieren, gibt es den Data Ingestion Prozess. Hierbei werden die Daten mittels ELT, ggf. auch ETL in den Data Lake überführt. Einfach gesagt werden Data Pipelines – also Skripts oder Tools – genutzt, um die Daten von der Quelle in eine Datenbank oder ein Filesystem zu überführen.

Dies ist auch bereits die nächste Schicht, die Data Storage. Ganz offensichtlich ist die Speicherung von Daten das Herzstück des Data Lakes und somit auch der größten Varianz. Üblicherweise wird im Storage Layer mindestens zwischen strukturierten und unstrukturierten Daten unterschieden, oft kommen auch noch die Fragen nach Cloud oder On-Premise oder Streaming-Architekturen zur Sprache. Im Grunde besteht diese Schicht in Data Lakes aber immer aus einer Rohdatenerfassung (“Raw Zone” oder “Landing Zone”) und weiteren Distillierungsschritten (zum Beispiel Aggregierungen oder ein Data Warehouse).

Sind die Daten erfasst, gilt es, sie zu verarbeiten. Diese Schicht ist üblicherweise das Processing Layer, also die Applikation von Transformationen, Konsolidierungen oder auch Analysen wie dem Training von Machine Learning Modellen. All dies geschieht quasi auf dem Data Lake, aber da die Ergebnisse wieder direkt in den Lake zurückgeführt werden, sind sie auch als Teil dessen zu sehen. Eine nahtlose Integration ist hier unumgänglich.

Schlussendlich gilt es, die Ergebnisse oder auch einfach nur die erfassten Daten auszuliefern. Diese Delivery Layer-Schicht (auch: Serve Layer oder Deployment Layer) stellt Daten, Machine Learning Modelle oder ähnliches anderen Applikationen, Systemen oder Kanälen zur Verfügung, um den generierten Mehrwert auch zu nutzen.

Beispiel für einen Data Lake auf AWS

Die Cloudkomponenten der Amazon Web Services (AWS) starten mit AWS Glue, dem ETL-Service von Amazon. Damit kann man den Data Ingestion Prozess, aber auch weitere Aspekte im Data Governance Umfeld abdecken.

Für Data Storage hat AWS eine Bandbreite an Lösungen. Zum Beispiel AWS Redshift für SQL, DynamoDB für NoSQL oder der Allrounder AWS S3 für unstrukturierte Daten. 

Um die Daten zu verarbeiten, nutzt Amazon ihre Services AWS EC2 bzw. AWS Lambda, um der Microservices-Idee zu folgen und mittels Komponenten wie Amazon SageMaker Machine Learning oder ähnliches durchzuführen.

Ausgeliefert, also das Deployment Layer, wird bei Amazon über Services wie beispielsweise Amazon Quicksight für Visualisierung oder AWS API Gateway zum Anbieten von APIs. Im Zentrum für Containerisierung stehen Amazon Elastic Container Service (ECS) und Amazon Elastic Kubernetes Services (EKS).

Beispiel für einen Data Lake auf Azure

Auf Microsoft Azure sind die Komponenten mit denen man sich einen generellen Data Lake zusammenstellen kann relativ gut integriert. Am Anfang steht meist die Azure Data Factory um den Data Ingest abzuwickeln. Data Factory kann mittels Konnektoren an viele Schnittstellen andocken und somit kontinuierlich die Daten “einspeisen”. 

Als Storage Komponenten hat Azure viele Möglichkeiten. Ob nun eine klassische Azure SQL Datenbank, Azure Blob Storage für unstrukturierte Daten oder Azure Cosmos für High Frequency Daten wie zum Beispiel Streaming.

Im Processing-Bereich steht dann Azure Analysis Service oder Azure Machine Learning zur Verfügung. Aber auch Azure Databricks, das sowohl Data Engineering als auch Modellierung auf Hadoop übernimmt, ist als Auswahl zur Verfügung.

Spricht man dann über das Deployment, greift man zum Beispiel zur Visualisierung auf das Microsoft-geprägte Power BI zu, in der Containerization auf Azure K8s oder Azure Redshift Service und zur Erstellung und dem Management von APIs auf Azure API Management.

Wie man sieht, bietet Azure eine umfangreiche Bibliothek an Services, um einen Data Lake vollumfänglich zu repräsentieren und in andere Prozesse einzubinden.

Beispiel für einen On-Premise Data Lake

Während bei Cloud-basierten Data Lakes die Komponenten relativ klar sind, sind bei On-Premise Realisierungen selbstverständlich keinerlei Grenzen gesetzt. Als einfaches Beispiel kann zur Data Ingestion ein ETL-Service wie Talend oder ein Streaming-Dienst wie Kafka stehen.

Dem folgt eine Bandbreite an Datenbanken wie Oracle oder Microsoft SQL DBs, MongoDB für NoSQL oder klassischerweise die Hadoop Cluster für unstrukturierte Daten für die Abdeckung der Storagekomponente.

Die Processing-Schicht ist nahezu unendlich skalierbar. Ob nun einfache python-Scripte die mittels einer Virtual Machine Workbench integriert werden, Data Mining Tools wie KNIME oder eine Spark Infrastruktur für größere Datenmengen – alles nur Beispiele in einer sehr großen Landschaft.

Die Daten und Analysen dann zur Verfügung gestellt werden können beispielsweise mittels Visualisierungssoftware wie Tableau, Docker Containerization oder – und das wird dann spannend – selbst implementierter REST APIs.

Wie man merkt, müssen in On-Premise Data Lake Architekturen einige Dinge aufgrund der unglaublichen Freiheit wesentlich umfangreicher geplant werden als im Cloudumfeld, bei dem es fast immer fixe Komponenten für die verschiedenen Schichten gibt. Dies resultiert einerseits in sehr großer Bandbreite und individueller Konfiguration des In-House Data Lakes, andererseits natürlich an sehr hohe Anforderungen an IT und DevOps.

Die Rolle des Data Lake im modernen Unternehmen

Wir hoffen, dass diese einfache Erklärung und Definition der Idee, des Konzepts, der Vorteile und Architektur von Data Lakes verständlich war. Die Frage die bleibt ist: Welche Rolle spielt ein Data Lake in einem modernen Unternehmen?

Simpel gesagt ist – egal ob man die Infrastruktur nun Data Lake oder Data Hub oder Datenplattform nennt – die Zusammenführung und Bereitstellung von Daten absolut zentral in Unternehmen die datenbasiert arbeiten möchten. Wenn das Ziel ist, dass alle Prozesse und Vorgänge durch Daten unterstützt werden, müssen die Daten auch vorhanden, erfasst und verfügbar sein. Dies funktioniert nur, wenn man die Storage-Komponente als auch die Data Governance vollumfänglich unter Kontrolle hat.

Zusammengefasst ist ein Data Lake – oder eine Abwandlung dessen – eines der wichtigsten Werkzeuge um ein datengetriebenes Unternehmen aufzubauen. Nicht nur im Analytics und der künstlichen Intelligenz, sondern in allen Prozessen muss man auf Daten zugreifen können. Da eine solche Konsolidierung und Zentralisierung ein Mammutprojekt ist, ist unsere Empfehlung lieber früh und iterativ einen Data Lake aufzusetzen, ihn zu pflegen und zu managen, statt über endlos-Planung alles operative aus den Augen zu lassen.

Weiterführende Information

Video zum Konzept eines Data Lakes

Ein einfach verständliches Video von IBM zum Thema Data Lakes:

AWS Data Lake Landing Page

https://aws.amazon.com/de/big-data/datalakes-and-analytics/what-is-a-data-lake/

Azure Data Lake Landing Page

https://azure.microsoft.com/en-us/solutions/data-lake/

Veröffentlicht am

Datenkultur: Warum sie wichtig ist und wie man sie fördert

Mehrere Personen deuten auf ein Blatt mit Datenanalysen

Buzzwords rund um die Nutzung von Daten geben sich fast jährlich die Klinke der Digitalen Transformation in die Hand. Doch was haben Big Data Analytics, Data Science, Machine Learning und künstliche Intelligenz gemeinsam? Sie alle sind einzelne Ansätze für eine viel umfassendere Lösung: Die Kultur einer Data Driven Company. In diesem Artikel möchten wir die Wichtigkeit einer holistischen Datenkultur darstellen und erörtern, wie man sie etabliert und fördert.

Inhaltsverzeichnis

Big Data Analytics, Data Science, Machine Learning, künstliche Intelligenz – die Lösungen für die Probleme von heute?

Buzzwords kommen und gehen. Während der Begriff “Big Data” vor wenigen Jahren noch die absolute Spitze in der Innovation von datenbasierten Arbeiten war, räumt “Data Science” inzwischen das Feld von hinten auf. Doch egal welcher Begriff gerade im Trend ist, die Quintessenz ist einfach abzuleiten: Unternehmen müssen und Unternehmen wollen mit Daten arbeiten.

Die Frage die sich dabei eher stellt ist: Was ist das wichtigste auf dem Weg zur Data Driven Company? Ist es der Data Scientist, der Machine Learning Algorithmen im Unternehmen verankert? Ist es die Big Data Analytics Plattform, die vollautomatisierte Kundenbetreuung in Echtzeit übernimmt? Oder ist es das Data Governance Council, das erst einmal den Keller der Daten aufräumt, dokumentiert und dann strukturiert zur weiteren Verarbeitung bereit stellt?

Ich bin der Ansicht, dass all dies einfache – wenn auch umfangreiche – Herausforderungen sind. Data Scientists kann man trainieren, Infrastruktur einkaufen und ein paar Leute einstellen um Data Governance zu verankern. Doch was nicht so einfach zu etablieren ist, ist das wichtigste an der Data Driven Company: Die Datenkultur.

Die Datenkultur ist die Basis für datenbasiertes Arbeiten

Warum ist eine fest integrierte und gemeinsam gelebte Datenkultur so wichtig? Gemäß der Bedürfnispyramide eines datenbasierten Unternehmen ist die Kultur die Basis für alle datenbasierten Arbeiten. Wir sehen drei Hauptgründe für die Wichtigkeit einer umfassender Datenkultur:

Datenkultur fördert Akzeptanz

Ob nun im Management oder an vorderster Front am Band: Nur wenn datenbasierte Lösungen akzeptiert werden, können sie auch Mehrwert generieren. Dabei gilt es zu vorderst, Angst zu nehmen. Angst, dass die eigene Position in Gefahr ist. Angst, dass die Maschine besser ist. Angst, dass man sich nicht auf die Ergebnisse und Anweisungen der Algorithmen verlassen kann.

Diese Angst kann nur durch Wissen gelöst werden. Nur wenn jedes Zahnrad im Unternehmen weiß, weshalb Dinge geschehen, wie sie geschehen und was die Auswirkungen davon sind, können die datenbasierten Lösungen akzeptiert werden. Daher ist die Akzeptanz von Daten, Algorithmen und das Wissen um deren Möglichkeiten zentral für jede Data Driven Company.

Datenkultur finanziert und fördert

Während wir bei der Akzeptanz bereits bei ausgespielten Lösungen sind, gilt es im Schritt zuvor noch überhaupt Lösungen zu erarbeiten. Und wie in jedem Unternehmen gibt es unzählige Baustellen, die Aufmerksamkeit verlangen. Daher hat es das Management oft nicht einfach: Wofür die begrenzten Ressourcen einsetzen

Bei einer etablierten Datenkultur ist die Hemmschwelle in Themen zu investieren, die datenbasiertes Arbeiten betreffen, niedriger. Ob nun grundlegende Arbeit wie Data Governance oder Innovation mittels Machine Learning: Wenn man um die Effekte und Zukunftsträchtigkeit von Data Science und verwandten Themen weiß, hat man sie mehr im Fokus.

Das wichtigste: Der eigene Beitrag ist eine Frage der Kultur

Während die beiden vorherigen Punkte noch passiv oder steuernd sind, ist die wichtigste Auswirkung einer kohärenten Datenkultur dass man auch datenbasiert denkt. Die besten und wichtigsten Use Cases für den Einsatz von Daten – ob nun künstliche Intelligenz, Automatisierung oder einfach Daten-Bereitstellung – werden üblicherweise von den Betroffenen Personen identifiziert. 

Folglich ist es von erheblicher Wichtigkeit, dass jede Person im Unternehmen aktiv nach Möglichen Einsatzzwecken für Daten sucht, statt darauf zu warten, dass diese Anwendungsfälle von Außen geliefert werden. Wer den Schmerz in seiner täglichen Arbeit spürt, weiß oft um den besten Hebel um diesen zu lindern. Daher muss die Datenkultur dort ankommen, wo die Dinge passieren.


Wie kann man eine Datenkultur im Unternehmen etablieren und fördern?

Dass eine umfassende Datenkultur von Vorteil ist, dürfte ersichtlich sein. Doch wie kann man eine Datenkultur etablieren und langfristig fördern? Hier stellen wir drei Ansatzpunkte vor, um diese Herausforderungen anzugehen:

Akzeptanz durch Wissen, Wissen durch Bildung

Wie bereits angerissen ist Akzeptanz am besten durch Wissen zu fördern. Und eine breit angelegte Wissensvermittlung auf mehr als populärwissenschaftlichen Niveau bedeutet ein Verstehen der Methoden, Optionen und Effekt von datenbasierter Arbeit. Der “Excel Kurs in 2020” hat zum Ziel, eine möglichst breite Basis innerhalb des Unternehmens dem Einsatz von Daten, Automatisierung, Datenanalyse, Datenvisualisierung, Data Science und vielem mehr näher zu bringen. 

Um diesen Schritt zu gehen gibt es viele Ansatzpunkte, die individuell auf jedes Unternehmen zugeschnitten werden müssen. Aber grundsätzlich gilt es Kurse, Webinare und/oder Data Translators, Citizen Data Scientist, Data Ambassadors, Data Consultants oder ähnliche Rollen zu etablieren, um eine möglichst breite Abdeckung zu gewährleisten.

Leuchttürme als greifbare Beispiele und Inspiration

Während Wissen im ersten Schritt immer noch primär theoretischer Natur ist, muss man die Erfolge von datenbasierter Arbeit auch greifbar machen. Durch Leuchtturm-Projekte und vor allem deren breiten Kommunikation vermittelt man die Möglichkeiten und inspiriert, dass alle Mitarbeitenden nach Anwendungsfällen in ihrem Bereich suchen.

Zudem gelten erfolgreiche Projekte als Multiplikatoren: Weiss man erst um das Potential in anderen Bereichen, ist man auch sehr viel schneller bereit datenbasierte Lösungen im eigenen Bereich zu fordern, fördern und akzeptieren.

Die Vision vom Management definiert und vermittelt

Der letzte Ansatz bildet auch den Rückschluss auf die Basis der Data Driven Company. Nebst Kultur ist der Executive Support, oder vielmehr der Executive Buy-In das wichtigste um Daten nachhaltig und langfristig im Unternehmen zu verankern. Das Management muss sich geschlossen und ganzheitlich auf eine Vision, eine Datenstrategie, einigen und diese auch kontinuierlich nach außen repräsentieren. 

Hierbei gilt es nicht nur über eine Datenvision zu sprechen, sondern eben auch durch Budget-Allokation, strategische Entscheidungen und generelle Unterstützung das Thema fokussiert und auch deutlich für alle Mitarbeiter sichtbar zu verfolgen. Nur wenn die Veränderung von oben angestossen, aber gleichzeitig kontinuierlich gefördert wird, gibt es die Möglichkeit eine unternehmensweise Datenkultur zu etablieren.

Die Rolle von Datenkultur in der Data Driven Company

Zusammengefasst haben wir dargestellt, dass eine nachhaltige, umfassende Datenkultur fundamental für die Transformation zur Data Driven Company ist. Nur mit einer Datenkultur die allgemein akzeptiert ist, werden datenbasierte Projekte nicht nur integriert, sondern sogar in allen Bereichen des Unternehmens angestoßen. Dies erfordert einen umfassenden Informationsaufbau, greifbare Erfolgsprojekte und einen tiefgehenden und kontinuierlichen Commit seitens des Managements. Doch ist die Datenkultur im Unternehmen etabliert und das Potential und die Vorzüge von datenbasierter Arbeit bekannt, erleichtert dies alle nachfolgenden Prozesse, Projekte und Operationalisierungen in der Data Driven Company.

Veröffentlicht am

Datenqualität: Definition, Merkmale und Analyse (Guide)

Datenqualität: Definition, Merkmale und Analyse

Datenqualität wird in Unternehmen immer wichtiger. Einerseits werden viele Probleme durch schlechte Datenqualität verursacht, andererseits bietet eine hohe Qualität der Daten eine Vielzahl an Vorteilen für Unternehmen, die mit den Daten arbeiten möchten. In diesem Artikel gehen wir auf die Definition von Datenqualität ein, bevor wir Merkmale, Probleme und auch Vorteile einer hohen Qualität von Daten aufzeigen.

Definition: Was bedeutet Datenqualität?

Datenqualität ist die Korrektheit der Erfassung und Inhalte von Daten. Eine niedrige Datenqualität meint dabei meist, dass Daten fehlen, sie inkorrekt oder inkonsistent sind.

Der Zeitpunkt an dem das Thema Datenqualität aufkommt ist meist der, wenn Daten eingesetzt werden sollen und eine der Beteiligten merkt, dass etwas nicht stimmt. Dieses “nicht stimmen” ist mit Absicht so vage formuliert, denn die Ausprägung von einer niedrigen Datenqualität kann in vielen Aspekten festgestellt werden: Von fehlenden Daten über Duplikate (Dubletten) bis hin zu falsch erfassten Daten gibt es viele Ausprägungen von schlechter Datenqualität.

Spricht man daher von Datenqualität in einem Unternehmen, wird meist der konkrete Inhalt und dessen Richtigkeit von spezifischen Daten gemeint.

Infografik Datenqualität in Unternehmen

Infografik zum Thema Datenqualität
Infografik zum Thema Datenqualität

Wie kann Datenqualität in das Thema Data Governance und Data Management eingeordnet werden?

Datenqualität ist ein Thema im Bereich Data Management, was die operative Anwendung von Data Governance darstellt. Der Unterschied ist, dass durch Data Governance die Ziele, Prozesse, Organisation und Richtlinien für Datenverwaltung festgelegt werden, während Data Management diese Rahmenbedingungen umsetzt. 

So kann der generische Begriff “Datenqualität” eigentlich unterteilt werden in die Vision (z.B. “Wir möchten jederzeit verwendbare, relevante Daten besitzen”) und die eigentliche Umsetzung durch Data Stewards mittels Systeme und Prozesse. 

Die finale Unterscheidung beruht darauf, dass Datenqualität oft nur auf die Struktur und den Inhalt der Daten bezogen wird, nicht aber auf die Qualität des Datenprozesses. Dieses Thema ist jedoch die Basis für alle Aktivitäten im Data Management, folglich muss es in der Qualität der Daten beachtet werden.

Probleme die durch schlechte Datenqualität entstehen

So ziemlich jedes Unternehmen hat negative Erfahrungen mit schlechter Datenqualität gemacht. Dies ist nicht verwunderlich: Daten setzen an so ziemlich jedem Unternehmensprozess an und eine schlechte Qualität der Daten führt zu einem schlechten Ergebnis innerhalb des Prozesses. Hier eine Liste an Problemen, die durch schlechte Datenqualität entstehen können.

Erhöhte Kosten durch den Mehraufwand bei schlechter Datenqualität

Egal ob bei Kunden oder Lieferanten – schlechte Stammdatenqualität kann dazu führen, dass Angebote falsch geschrieben werden, Service-Mitarbeiter vor der falschen Adresse stehen oder die Lieferungen an die falschen Orte gehen. Daher ist es zunehmend wichtig für den Bereich Operations, dass alle Unternehmensdaten so korrekt wie möglich sind.

Falsche Analysen durch eine niedrige Qualität der Daten

Mit der Zunahme an datenbasierten Arbeiten, Datenanalysen und Data Science Anwendungsfällen nimmt auch die Wichtigkeit von Datenqualität zu. Falsche Analysen oder falsche Machine Learning Modellierung führt schnell dazu, dass falsche Entscheidungen getroffen werden. Und dies kostet schnell Geld: Egal ob niedrigere Effekte, falsche strategische Entscheidungen oder falsche Überwachung der Geschäftsprozesse – die Korrektheit beruht auf der Datenqualität.

Probleme bei der Umsetzung rechtlicher Vorgaben (Compliance)

Während es in vielen Punkten um Effizienz, verlorenen Umsatz oder ähnliches geht, wird es bei rechtlichen Gesetzeslagen schnell geschäftsgefährdend. Speziell in Zeiten von DSGVO und dem Recht auf Vergessen-Werden wird fehlende Data Governance, falsche Verknüpfung oder fehlende Dokumentation schnell zu einem weitreichenden Problem.

Verlust von Umsatz durch mangelnde Stammdatenqualität

Ein weiteres Problem von mangelnder Datenqualität ist eine direkte Auswirkung auf den (potentiellen) Umsatz. Speziell im Bereich Stammdaten ist hierbei Sorgfältigkeit angebracht. Wenn kein sauberes Lead Management betrieben wird, Kundendaten nicht gepflegt werden oder Transaktionsdaten qualitativ nicht zur Analyse von Produktempfehlungen oder Segmentierung genügen, geht schnell Umsatz verloren.

Imageschaden durch schlechte Daten

Ein letztes, aber dennoch sehr wichtiges Thema das vielen oft nicht direkt bewusst ist: Auch das Image eines Unternehmens kann unter einer schlechten Qualität der Daten sehr leiden. Zum Beispiel wenn die Qualität im Bereich Stammdaten niedrig ist, werden gegebenenfalls falsche Produktinformationen über die Kanäle an den Kunden kommuniziert. Dies führt zu Verwirrung oder Frustration, wenn man andere Produkte bekommt als man erwartet.

Ein anderes Beispiel befindet sich im Bereich der User Experience. Wenn Kunden eine Lieferung erwarten und diese aber auf falschen oder nicht aktuellen Daten beruht, wird der Kunde ein sehr schlechtes Erlebnis haben. 

Wie schlechte Datenqualität in einem Unternehmen entsteht

Gründe und Effekte von schlechter Datenqualität
Schlechte Datenqualität hat viele negative Effekte auf Unternehmen

Schlechte Dokumentation von Daten

Bei mangelnder Data Governance ist nicht klar, wann, wie und wo man Daten dokumentieren kann oder soll. Folglich ist unklar welche Daten vorhanden sind, welche Attribute diese besitzen oder wie sie eingesetzt werden. Dies führt direkt zu schlechter Datenqualität einerseits, aber zu einer sehr schlechten Qualität des Gesamtprozesses andererseits. Daher ist schlechte Dokumentation von Zieldaten als auch des vorhandenen Inhalts meist direkt im Zentrum einer mangelnden Datenqualität.

Daten-Silos

Durch den historisch bedingten Aufbau von Datensilos bestand nie die Notwendigkeit, die Daten anderweitig einzusetzen. Weder über Systeme hinweg zu verbinden (Data Unification) noch zentral zur Analyse zu sammeln (z.B. via Data Lake). Durch diesen mangelnden Einsatz und die Existenz von Datensilos war Datenqualität nie im Fokus, da Daten oft innerhalb eines Systems besser gepflegt sind als über Systeme und Einsatzzwecke hinweg. Nach und nach werden diese Legacy-Systeme abgelöst und die Verknüpfung von Silos wird noch mehr an Relevanz gewinnen.

Unklare Strategie

Wenn es keine klare Datenstrategie gibt, kann im Unternehmen auch keine Vision vermittelt werden. Folglich sind die grundlegenden Arbeiten wie der Aufbau einer einheitlichen Dateninfrastruktur, Expertise im Data Engineering oder eben Data Governance selten von Priorität.

Keine Data Governance

Ganz offensichtlich ist das organisatorische und strategische Fehlen einer Data Governance Initiative grundlegend für die fortgeführte niedrige Datenqualität. Data Governance ist das direkte Entgegenwirken, weshalb die Unternehmen die es nicht etabliert haben, auch stärker mit schlechter Qualität von Daten kämpfen.

Fehlende Abstimmung zwischen Technik und Domäne

Oft fehlt einfach klare Abstimmung zwischen den verschiedenen Fachbereichen um klar zu definieren, welche Daten in welcher Form am effektivsten sind. 

Menschliche Fehler

Je nach Studie sind Menschen für bis zu 60% der Fehler in den Daten verantwortlich. Daher muss sich jedes Unternehmen zum Ziel setzen, mittels Prozessen, technologischen Vorsichtsmaßnahmen und klaren Data Governance Prinzipien seine Angestellten zu trainieren und zu unterstützen, seinen Beitrag zu einer hohen Datenqualität zu leisten.

Wie eine hohe Datenqualität definiert ist und warum sie so wichtig ist

Der Wert einer hohen Datenqualität hat viele Ausprägungen
Der Wert einer hohen Datenqualität hat viele Ausprägungen

Wie genau eine hohe “Data Quality” definiert ist, ist individuell für jedes Unternehmen zu bestimmen. Der generelle Konsens ist, dass die Datenqualität hoch ist, wenn die Daten verfügbar und einsetzbar für den intendierten Zweck sind. Aber diese generische Definition gilt es natürlich mittels einem zugeschnittenen Data Governance Programm genau auszudefinieren und mittels KPIs zu untermauern. 

Während die genaue Definition und deren Implementierung im Unternehmen individuell ist, gibt es jedoch einige generelle Kategorien in denen eine hohe Datenqualität einen positiven Effekt erzielt. Diese Kategorien finden sich in fast jedem Unternehmen wieder und gelten daher als Richtlinie, weshalb es sich lohnt, in eine hohe Qualität von Daten zu investieren.

Vertrauen in die Daten durch bessere Entscheidungen, bessere Entscheidungen durch Vertrauen in die Daten

Es ist ein Kreislauf. Wenn man gut analysierten Daten vertraut (“Data Confidence”) und Entscheidungen darauf basiert, hat man eine bessere Ausgangslage. Dies funktioniert allerdings nur, wenn die Daten vertrauensvoll sind: Liegt schlechte Datenqualität zugrunde und man trifft darauf basierend eine falsche Entscheidung, wird dies natürlich das Vertrauen in die Daten zerstören.

So ist es nicht überraschend, dass 84% der Geschäftsführer Bedenken bezüglich der Datenqualität in ihrem Unternehmen haben – und dementsprechend den Daten nur bedingt vertrauen. Und dementsprechend ihre Entscheidungen doch wieder Bauchgefühl treffen. 

Dieser Kreislauf kann nur durchbrochen werden, wenn die Qualität der hoch ist. Denn dann kann man die Daten als das Werkzeug einsetzen, für das sie gedacht sind.

Konsistenz und Kohärenz der Daten sind die Grundlage für ein gemeinsames Arbeiten

Wenn Daten bei jeder Auswertung anders interpretiert werden, wenn unterschiedliche Reports unterschiedliche Zahlen ausweisen, wenn verschiedene Zweigstellen des Unternehmens unterschiedliche Lagerbestände angezeigt bekommen – all dies sind Faktoren dafür, dass eine schlechte Datenbasis die Grundlage der Zusammenarbeit zerstört.

Folglich kann man effizient und stringent zusammen arbeiten, wenn man die gleiche Basis in den Daten hat. Und diese erreicht man durch Data Governance einerseits, aber auch rein indem man die Datenqualität an sich anhebt, um potentielle Fehler zu minimieren.

Stabilität von Systemen und Produkten durch hohe Datenqualität

IT-Abteilungen oder spezieller Data Engineers sind oft damit beschäftigt, Data Pipelines zu reparieren nachdem eine Änderung vorgenommen wurde oder sich das Ursprungsformat der Daten geändert hat. 

Zusätzlich gibt es oft genug weitere Probleme durch Daten, die in einer Pipeline auftauchen, aber nicht erwartet sind. Entweder weil diese Art von Daten nicht im Startsystem nicht dokumentiert waren oder weil sie nicht dem Standardformat entsprechen – beides Aspekte von einer niedrigen Datenqualität.

Im schlimmsten Fall führen solche Fehler in Data Pipelines dazu, dass nachfolgende Systeme nicht mehr operieren können. Ganz offensichtlich führt dies – je nach System – zu starken Einbußen im täglichen Geschäft, was durch eine verbesserte Datenqualität verhindert werden kann.

Data Science Expertise fokussiert einsetzen statt Daten zu säubern

Im Bereich der Datenanalyse sind die Experten von Data Science und Machine Learning mitunter 70% der Zeit damit beschäftigt, die vorliegenden Daten zu suchen, säubern und vorzubereiten. Dies ist eine aufwendige, frustrierende Aufgabe, die durch eine hohe Datenqualität komplett abgelöst werden kann. Folglich kann die Expertise viel zielgerichteter eingesetzt werden statt dass sich Data Scientists damit beschäftigen müssen. Zusätzlich erlaubt eine hohe Data Quality auch immer eine höhere Qualität der Gesamtergebnisse – somit also ein doppelter Effekt.

Kosten, Aufwand und Zeit sparen durch hohe Datenqualität

Wie bereits aus den verschiedenen Aspekten ersichtlich, kostet schlechte Datenqualität ein Unternehmen Geld, Aufwand, Zeit und Ansehen. Daher kann man durch eine kontinuierlich hohe Datenqualität in all diesen Aspekten gewinnen. Sowohl direkte Kosten wie Downtime, als auch indirekte Kosten wie der Aufwand zur Behebung von Problemen oder Image-Einbussen müssen hier beachtet werden.

Insgesamt zahlt eine hohe Datenqualität darauf ein, dass man sich weniger mit Meta-Themen beschäftigen muss. Es gibt weniger Verzögerungen in Umsetzungen weil Daten direkt, einfach und in hoher Qualität bereit stehen und Projektbudgets werden insgesamt weniger belastet da die Datenextraktionen ohne Probleme durchgeführt werden. 

Um den Effekt minimal zu quantifizieren: Laut einer Studie von IBM im Jahr 2016 geht jedes Jahr in etwa 3.1 Trillionen US Dollar Verlust durch schlechte Datenqualität einher. 

Compliance readiness: Bereit für Datenschutz und DSGVO

Weiter oben als eines der größten Probleme definiert, kann man das Problem bei hoher Datenqualität entsprechend als Vorteil definiert werden. Wenn man eine hohe Datenqualität etabliert hat, erlaubt dies eine sehr einfache Einhaltung von rechtlichen Vorgaben wie beispielsweise dem “Recht auf Vergessenwerden” oder die Auslieferung aller gespeicherten Daten.

Da sich die Kontrolle über die eigenen Daten in Zukunft immer weiter in Richtung Kunden verlagern wird, gilt es als fundamental auf die entsprechenden rechtlichen Vorgaben vorbereitet zu sein. Dazu zählt eine genaue Nachverfolgbarkeit von vorhandenen Daten, Dokumentierung der Inhalte und einfache Querverbindung aller Datenquellen, in denen sich Kundendaten befinden. Und dies sind alles Themen für eine hohe Datenqualität.

Der Kunde als Nutznießer hoher Datenqualität

Während es viele interne Prozesse gibt, die sehr stark von hoher Datenqualität profitieren, ist es am Ende der Kunde, der immer mitprofitiert. Ob nun effizientere oder personalisierte Kanäle, ob schnellere Verarbeitung, bessere Produkte oder Services: Alles zahlt darauf ein, dass die Kunden einen Vorteil haben. 

Daher darf Datenqualität nicht isoliert für interne Aufgaben betrachtet werden, sondern muss bis ans Ende der Prozesskette gedacht werden. Viel der Information, ob nun Stammdaten oder Transaktionsdaten, haben schlussendlich einen Einfluss auf die Kanäle und somit direkt auf den Kunden.

Eine hohe Datenqualität führt zu höherem Umsatz

Einer Studie von Thomas Redman zufolge verpassen Unternehmen jedes Jahr ca. 15% bis 25% an Umsatz pro Jahr durch mangelnde Datenqualität. Die Logik ist relativ einfach: Wenn man zuverlässige, validierte Daten von hoher Qualität zur Verfügung hat, kann man alle nachfolgenden Prozesse sehr verlässlich steuern. 

Dieser direkte Einfluss schlägt sich in höherem Umsatz nieder. Prozesse können effizienter durchgeführt, Kunden besser betreut und Bestellungen schneller erfüllt werden. Ganz zu schweigen von personalisiertem Marketing und dynamischer Preispolitik. Alles mündet in Verbesserung von Prozesse um Kosten zu minimieren und bessere Betreuung für höheren Umsatz.

Die Zukunft wird durch die Daten definiert – und die Qualität hat einen großen Einfluss

Wir sind der festen Überzeugung, dass die Zukunft den Data Driven Companies gehört. Jene Unternehmen, die aktiv Daten aufnehmen, speichern und verwerten werden einen Wettbewerbsvorteil haben gegenüber Unternehmen, die diese nicht tun. 

Da allerdings nur das Vorhandensein von Daten keinen Vorteil bringt, sondern die verarbeitungsbereite Bereitstellung und entsprechende Verwertung, ist Datenqualität neben Infrastruktur, Organisation und Expertise eine der Hauptvoraussetzungen auf dem Weg zur Data Driven Company. Nur dann kann ein Unternehmen bereit in die Zukunft gehen, seine Prozesse entsprechend skalieren und den Anforderungen von Big Data, Data Lakes, Data Science und Machine Learning trotzen.

Welche Merkmale bzw. Dimensionen von Datenqualität gibt es?

Merkmale zur Messung von Datenqualität von Prozess über Erfassung bis Inhalt
Merkmale zur Messung von Datenqualität von Prozess über Erfassung bis Inhalt

Es gibt eine ganze Bandbreite an Merkmalen, die einen einfluss auf die Datenqualität ausüben. Dabei unterscheiden wir in drei Kategorien: Die Qualität der Datenerfassung, die Qualität des Inhalts und somit der Wert der Daten selbst, sowie die Qualität des Prozesses zur Datenerfassung und -nutzung. Gemäß der Definition von Data Governance würde sich daher auch die Prozessqualität rein auf den Bereich Data Governance beziehen, die Datenerfassungsqualität auf klassische Attribute assoziiert mit der Struktur und Ausprägungsform von Daten und der Datenwert auf Attribute mit dem semantischen Inhalt der Daten. 

Wenn man üblicherweise von “Datenqualität” spricht, meint man vor allem die Qualität der Datenerfassung und des Inhalts, weniger den Prozess der sich um die Erfassung, Kontrolle und Verwaltung von Daten dreht.

Merkmale einer hohen Datenprozessqualität

Mit Datenprozess sind Attribute gemeint, die die Sicherheit, den Zugang, die Historie und Kontrolle über Daten beschreiben.

Data Access (Zugriff auf Daten)

Wenn kein Zugriff auf die Daten möglich ist, ist selbstverständlich die Existenz hinfällig. Data Access ist daher relativ zentral, vor allem ein Ziel zu setzen, dass man schnell, sicher und einfach Zugriff bekommt.

Data Lineage (Stammbaum / Nachverfolgbarkeit von Daten)

Als Data Lineage wird die Verfolgbarkeit der Datenherkunft und Datennutzung genannt. Zum Beispiel, dass für jede Datenquelle klar ist, welchen Ursprung (z.B. System) sie hat und in welchen Analysen und Prozessen sie eingesetzt wird.

Data Security (Sicherheit von Daten)

Ein sehr großes Thema im Prozess der Datenverarbeitung ist die Sicherheit. Sowohl aus der Sicht von Infrastruktur, Zugang als auch Backups.

Data Process Quality (Datenprozessqualität)

Data Process Quality meint ob klar definiert ist, wie man auf Daten zugreift, neue Quellen anbinden kann, weiterverarbeitet und ähnliche Prozesse durchführen kann.

Data Compliance (Ordnungsmäßigkeit)

Compliance, also die Einhaltung von gesetzlichen und datenschutzrechtlichen Richtlinien, ist ein sehr wichtiger Teil des Prozesses in der Datenverwaltung. 

Data Control (Kontrolle)

Als Data Control wird die generelle Handhabung von Daten und des Prozesses betitelt. Höher skaliert bezieht sich die Datenkontrolle auf den gesamten Bereich von Data Governance und Data Management.

Data Timeliness (Zeitlosigkeit / Aktualität von Daten)

Daten, die aktuell sind, können korrekt eingesetzt werden. Hierbei zählt der Updateprozess, vor allem wenn die technische Grundlage ein Batch Processing ist, eine große Rolle.

Dimensionen der Datenerfassungsqualität

Die Qualität der Datenerfassung bezieht sich auf die am häufigsten betrachteten Attribute in der Datenqualität bzgl. Vermeidung von schlechtem Dateninhalt bereits auf der technologischen Ebene.

Data Accuracy (Genauigkeit der Daten)

Beantwortet die Frage, ob der Inhalt der Daten auch dem Attribut entspricht. Zum Beispiel, dass “Geburtsdatum” auch einen korrekt formatiertes Datenobjekt enthält, das das Geburtsdatum beschreibt. 

Data Duplicates / Data Uniqueness (Dubletten)

Das Gegenteil von “Uniqueness”, also der Einzigartigkeit eines Dateneintrags, ist das Data Duplicate. Ob innerhalb eines Datensystems oder über Datensysteme hinweg gilt es zu vermeiden, dass es Dubletten gibt, bei denen unklar ist, welche die Grundwahrheit bilden (sog. Ground Truth).

Data Completeness (Vollständigkeit von Daten)

Die Vollständigkeit meint vor allem zu Unrecht fehlende Werte. So gibt es beispielsweise Attribute die zu Recht fehlen (z.B. im Attribut “Doktortitel” erwarten wir keine Vollständigkeit), aber auch welche die fälschlicherweise fehlen (z.B. Kunden-Nummer).

Data Integrity (Integrität)

Die einheitliche Weiterführung von Daten über ihren Lebenszyklus, so dass weder Inhalt noch Format geändert werden. Als Beispiel gilt, dass nicht plötzlich ein Attribut namens “Inhalt_Liter” plötzlich Milliliter ausweist. 

Data Consistency (Konsistenz von Daten)

Data Consistency bezeichnet die Konsistenz eines Datums über ggf. Verschiedene Datenbanken oder Datenbanksysteme hinweg. Es muss vermieden werden, dass zum Beispiel eine Transaktion in einer Datenbank geändert ist, in anderen aber noch den Originalwert aufweist.

Data Validity (Validität von Daten)

Die Datenvalidität ist ein technisches Attribut, welches sich auf die Syntax und Datentypen eines Datums bezieht. So muss beispielsweise vermieden werden, dass in einem String-Attribut rein numerische Zahlen gespeichert werden.

Data Conformity (Konformität von Daten)

Datenkonformität bezeichnet das Folgen von zu erwarteten Datenformaten. Als einfaches Beispiel gilt eine Datumsangabe, die zum Beispiel DD.YYYY.MM formatiert ist, würde gegen Data Conformity verstoßen. 

Attribute der Dateninhaltsqualität

Data Relevance (Relevanz der Daten)

Die Data Relevance bezieht sich auf die inhaltliche Relevanz der aufgenommenen Daten. Dieses Attribut wird immer diskutiert, wenn die Frage gestellt wird, welche Daten aufgenommen werden.

Data Existence (Existenz von Daten)

Ganz simpel – existieren die Daten, die man intendiert zu nutzen, überhaupt in der Auflösung und Wahrheit die wir voraussetzen.

Data Reliability (Verlässlichkeit)

Daten sind verlässlich, wenn sie gemäß der Nutzung genügend komplett, korrekt und genau sind. Folglich ist es eine Summe aus anderen Aspekten, die definiert, ob die Daten überhaupt eingesetzt werden können.

Data Reportability (Berichtbarkeit von Daten)

Können die Daten genutzt werden, um mittels Reports oder Visualisierungen vermittelt und somit in die Organisation zurück gespielt zu werden.

Data History (Historie der Daten)

Wie weit können wir die Historie der Daten zurückverfolgen und Veränderungen analysieren. Vor allem in Themen des Internet of things wird es immer relevanter, die Geschichte von Edge-Devices zu kennen, um adäquat reagieren zu können.

Data Measurability (Messbarkeit von Daten)

Die Frage der Messbarkeit ist, ob wir den Dateninhalt in Relation zu etwas setzen können. Zum Beispiel sind Daten, die ohne Indikation über ihre möglichen Ausprägungen gehalten werden, schwierig zu handhaben, da nicht klar ist, in welchem Quantile sie in der Range liegen.

Data Granularity (Auflösung der Daten / Messgenauigkeit)

Die Granularity von Daten bezeichnet die Auflösung. Beispielsweise können Zeitangaben von Millisekunden bis Monate aufgelöst sein und je nach Anwendungsfall unterschiedliche Granularity benötigen. 

Ansatzpunkte zur Verbesserung der Datenqualität

Wir haben ausführlich und transparent dargestellt, weshalb eine gute Datenqualität zentral für jedes Unternehmen sein muss. Doch wie beginnt man, das Thema umfassend zu bearbeiten? Hier schlagen wir eine Reihe an Ansätzen zur Verbesserung der Datenqualität vor, die noch besser wirken, so sie kombiniert werden.

Training und Workshops zur Etablierung des Mindsets

Einer der wichtigsten Ansatzpunkte zur Verbesserung der Qualität der Daten ist die Etablierung eines gemeinsamen, datenzentrierten Mentalität. Hierzu gilt es, die Probleme und Vorteile im Zusammenhang mit Datenqualität darzustellen und zu vermitteln. Das Ziel ist es, alle Angestellten in den Prozess einzubinden um somit eine breite Verantwortung für die gemeinsame Verbesserung der Datenqualität sicher zu stellen.

Data Governance ist zentral für langfristige Datenpflege

Im Herz jeder Bewegung in Richtung guter Datenqualität steht ein Data Governance Programm. Data Governance ist der strategische, prozessuale und verwaltende Aspekt, während Data Management der ausführende Arm ist. Gemeinsam gilt es, das Thema Data Quality als zentral zu etablieren, Prinzipien zu definieren, eine Organisation zu schaffen und entsprechende Befähigung zu etablieren. Dazu gehört auch die Bereitstellung von notwendiger Software, Kapazität und klarer KPIs, in dessen Richtung gearbeitet wird.

Der Data Steward als Wächter der Datenqualität

Eine der wichtigsten Rollen im Thema Data Quality ist der Data Steward. Seine Verantwortung ist die Überwachung, Detektion, Kontrolle und Korrektur von schlechter Datenqualität. Zudem gilt es, Quellen schlechter Datenqualität zu beheben.

Andere am Prozess beteiligte Rollen können der Data Quality Manager, Data Quality Analyst, Data Engineers, Data Governance Managers oder Data Tool Managers sein. Ob nun eine dieser Rollen oder der Data Steward selbst: Es muss dedizierter Platz für das Thema in der Organisation geschaffen werden, um die entsprechende Wichtigkeit zu vermitteln.

Im Optimalfall ist es auch nicht nur ein Data Steward, sondern viele Data Stewards die im Unternehmen verteilt sind. Möglichst nah an Quelle und Einsatz der Daten gilt es, Domänenexpertise mit fachlichem Wissen zu kombinieren, um die Data Quality möglichst hoch zu halten. 

Data Downtime als Hauptmetrik für die Qualität der Daten

Eine der häufigsten Fragen im Bezug auf Data Governance und Data Quality Management ist die Frage der Rentabilität. Davon abgesehen, dass sie kaum zu messen ist, da Datenqualität Auswirkung auf so viele Querfunktionen und Effizienzen hat, gibt es dennoch den Versuch eine KPI zur quantifizieren zu etablieren.

Als sogenannte “Downtime” wird alles zusammengefasst, was als messbarer Einfluss von negativer Datenqualität gesehen werden kann. Das bedeutet, dass die Zeit in denen Daten als fehlerhaft, nicht verfügbar, fehlend oder anderweitig beschränkt verfügbar sind, erfasst wird. Als Berechnung gilt:

> Data downtime = Number of data incidents x (Time-to-Detection + Time-to-Resolution)

Die Idee ist, dass herkömmliche Merkmale wie Completeness schwer zu messen sind. Data Downtime hingegen ist eine aggregierte, einfach zu quantifizierende Metrik, die schnell zeigt, wie es um Data Quality im Unternehmen steht.

Automated Data Quality Assessment – Automatisierung von Datenqualität

Ein weiterer Baustein in der Verbesserung der Datenqualität ist die automatisierte Detektion von Verstößen gegen eingeführte Richtlinien. Dies kann einerseits einfach mittels Tools und Dashboards geschehen, andererseits aber auch vollautomatisiert mittels Machine Learning

Das Ziel hierbei ist entweder die Unterstützung von Data Stewards im Data Management oder direkte Klassifizierung von Einträgen schlechter Datenqualität, um sie abzuweisen. Mit zunehmender Konsolidierung von Datenquellen in einem Data Lake wird auch die Governance zunehmen, weshalb solche Vorgehen immer mehr Standard werden.

Unsere Empfehlung: Datenqualitäts-Analysen von Kobold AI. Einfach Analyse auswählen, Daten hochladen und Ergebnisse direkt bekommen. Ohne Aufwand Einblicke in Probleme bekommen, um schnell die Qualität zu erhöhen.

Eine hohe Datenqualität wird in Zukunft immer wichtiger – jetzt ist Zeit zu handeln

Wir haben umfassend dargestellt, weshalb Datenqualität zentral für jedes Unternehmen sein muss. Tatsächlich wird mit der Zunahme an Analysen, Künstlicher Intelligenz und Verknüpfung verschiedener Systeme auch die Notwendigkeit einer hohen Qualität von Daten zunehmen. Folglich wird Data Quality als Thema auch immer mehr jene Unternehmen von denen differenzieren, die sich nicht entwickeln.

Zusammengefasst ist das Thema Datenqualität im generellen sehr weitreichend und für jedes Unternehmen muss die richtige Skalierung, die richtigen Metriken und die richtigen Ansatzpunkte gefunden werden, damit die Qualität der Daten im Fokus stehen kann, ohne alles andere zu erschlagen.

Veröffentlicht am

Machine Learning Labels einfach erklärt

Zwei Menschen arbeiten an einer Formel an einer Tafel

Was sind Labels im Bereich Machine Learning?

Als “Labels” werden im Supervised Machine Learning die Kategorien von Daten bezeichnet, in die die Datensätze eingeordnet werden sollen. Somit sind Labels, auf Deutsch Beschriftung oder “Kategorie”, der Output auf den das Machine Learning Modell trainiert wird. Auch die Vorhersage – genau genommen nur in Classification Algorithmen – gibt als Ergebnis ein Label zurück.

Was ist der Unterschied zwischen Supervised und Unsupervised Machine Learning?

Während Labels im Bereich Supervised Machine Learning fundamental sind um die Algorithmen zu trainieren, benötigen Unsupervised Machine Learning Algorithmen diese Zusatzinformation nicht, da sie rein auf den Dateninhalten operieren. Überwachtes maschinelles Lernen sagt eine Kategorie oder Zahl vorher – unüberwachtes maschinelles Lernen arbeitet rein auf Ähnlichkeiten der Daten, nicht aber auf vorher definierten Kategorien. 

Wie werden Labels für Machine Learning erstellt?

Labels können sowohl automatisch als auch händisch erstellt werden. Automatische Labels machen jedoch nur Sinn, falls die extrahierte Information nur in einem Teildatensatz verfügbar ist; sonst könnte man die Information direkt für vorhandene und spätere Daten direkt extrahieren.

In Realität werden Labels allerdings in 90% der Fälle manuell erstellt. Dies kann bereits während vorhergehender Prozesse geschehen (z.B. das Label “schlechte Datenqualität” oder “Vielkäufer”) oder spezifisch für das Machine Learning Training. Dazu gibt es eine eigene “Spalte” (“Feature”) im Datensatz, die später vorhergesagt wird.

Warum sind Labels so wichtig für Supervised ML?

Ganz einfach: Ohne Labels können Algorithmen wie künstliche neuronale Netze nicht trainiert werden. Sie sind die Basis für die Optimierung des statistischen Modells auf eine “Aussage”. Fehlende Labels bedeuten daher, dass keine Optimierung vorgenommen werden kann. In einem solchen Fall können nur andere Verfahren wie Unsupervised Learning eingesetzt werden.

Noch schlimmer als fehlende Labels sind allerdings Labels von schlechter Qualität. In einem solchen Fall werden die Algorithmen dann auf falsche Aussagen trainiert, was in Realität einfach zu falschen oder inkohärenten Aussagen des Machine Learning Modells führt. Zusammengefasst sind nicht oder schlecht gelabelte Daten im Supervised Machine Learning nicht zu gebrauchen.

Braucht man Labels auch im Bereich Regression?

Ganz formal spricht man im Bereich Regression, also der Vorhersage von numerischen Werten, nicht von Labels für die Vorhersage. Labels sind generell immer Kategorien. Im Bereich Regression spricht man daher von “Prediction” oder “Target”, was allgemeinere Begriffe für die Vorhersagezielwerte sind.

Data Labeling – eines der größten Probleme in den kommenden Jahren?

Mit der steigenden Nutzung von Machine Learning, vor allem von Deep Learning und anderen Klassifiern, steigt auch die Notwendigkeit für Label. Viele Unternehmen sagen Voraus, dass Data Labeling einer der größten Bottle Necks in den kommenden Jahren sein wird. Denn wer Daten vorhersagen möchte, braucht Labels. Und wer Daten gut vorhersagen möchte, braucht viele Daten. Dies führt zu einer hohen Anforderung an qualitativ hochwertig gelabelten Daten in den kommenden Jahren – etwas, worauf sich bereits jetzt viele Unternehmen vorbereiten sollten.

Veröffentlicht am

Data Staging Area: Definition, Grundlagen und Beispiel

Memory sticks mit einem Label "Storage Engineer"

Definition Data Staging Area

Die Data Staging Area, zu Deutsch “Daten-Aufbereitungsbereich”, ist ein Bereich im Extract-Transform-Load (ETL) Prozess, der die Daten zur Überführung in ein Data Warehouse vorbereitet. Genauer folgt die Staging Area auf den “Extraction”-Schritt und bildet die Basis für Transformationen und die Kombination von verschiedenen Datensätzen. Danach folgt das Laden der aufbereiteten Daten in das Warehouse.

Welche Prozesse laufen in der Staging Area ab?

Es gibt drei Hauptprozesse in der Staging Area: 

  1. Extraktion und Transformation von Daten aus der Landing Zone, also den Replikaten aus den Quelldatensystemen. Transformation umfasst alles, was eine Veränderung, Ausschluss oder Normalisierung der Daten betrifft. 
  2. Kombination mit anderen Datenquellen oder die Vorbereitung des Datenschemas, um die Daten mit anderen Datenquellen kombinieren zu können. 
  3. Speicherung der vorbereiteten Daten in eine Staging Database, welche dann als Basis für die Überführung in das Data Warehouse fungiert.

Warum ist die Staging Area wichtig?

Es gibt einige Vorteile einer Staging Area versus einer in-Memory Transformation und direkten Überführung in ein Data Warehouse:

  • Datenkombination ist einfacher, da man sequentiell anreichern kann
  • Data Governance kann besser ausgeübt werden, da klare Prozessschritte voneinander getrennt sind
  • Durch Quality Gates kann man fehlende oder fehlerhafte Daten filtern bevor sie das Data Warehouse erreichen
  • Man kann eine bessere Datenversionierung einführen, da man Zwischenergebnisse (Distillate) speichert
  • Größere Datenmengen können via Batches verarbeitet werden, ohne in Skalierungsprobleme zu laufen
  • Eine einfache Überführung der Daten ins DWH ist möglich, da die Staging Area bereits alle “internen” Vorbereitungsschritte abgeschlossen hat

Was ist der Unterschied zwischen einer Staging Area und einer Landing Zone?

Die Landing Zone ist der Bereich, in dem Datenextrakte initial ankommen. Der Unterschied ist, dass in der Landingzone Daten als Rohformate (z.B. unstrukturierte Daten) erfasst und dokumentiert werden, während in der Staging Zone diese Daten verarbeitet werden und für den “Load” in das Data Warehouse vorbereitet werden.

Neben diesem formellen Unterschied werden beide Begriffe oft synonym für beide Aspekte genutzt. Dabei gibt es zum Beispiel in einem Data Lake zwar eine Landing Zone, aber keine Staging Area. Gleichermaßen ist ein Staging absolut notwendig, um in ein DWH zu überführen, benötigt aber keine eigens existierende Landing Zone. 

Gibt es eine Staging Area auch in einem Data Lake?

Wie bereits angerissen, benötigt ein Data Lake per se keine Staging Area, da er dem ELT-Prinzip folgt statt ETL. Das heisst, die Daten werden im Data Lake gespeichert, ohne sie für ein Warehouse-Schema aufzubereiten, was der Sinn einer Staging Area ist.

Davon abgesehen gibt es allerdings ähnliche Strukturen im Data Lake, vor allem wenn man über die Rohdatendumps hinaus weitere Datenverarbeitung betrachtet. Werden Daten weiterverarbeitet gibt es ähnliche Prozesse (z.B. Feature Engineering im Machine Learning), die den gleichen Effekt haben. 

Zu vernachlässigen ist ebenso wenig, dass ein Data Lake auch mehrere Data Warehouses beinhalten kann – weshalb es dafür wiederum selbstverständlich eine eigene Staging Area geben kann.

Beispiel für eine ETL-Infrastruktur inklusive Staging Area

Um den Nutzen einer Staging Area und deren Platz in der Infrastruktur eines ETL-Prozesses zu verdeutlichen, möchten wir ein Beispiel darstellen:

  1. Source: Die Datenquellen
  2. Extraction: Mittels APIs oder ETL-Tools werden die Daten aus den Quellsystemen oder Datenbanken extrahiert
  3. Landing Zone: Die Daten “landen” in der Landing Zone und werden in Landing Tables gespeichert
  4. Staging Area: Die Daten werden aus der Landing Zone extrahiert, aufbereitet und zusammengeführt, um sie dann in einer Staging Table zwischenzuspeichern
  5. Load: Die Daten werden in das Datenschema des Data Warehouses überführt und in das Warehouse geladen
  6. Consume: Die aufbereiteten Daten können aus dem Data Warehouse für die verschiedenen Konsumenten (z.B. Visualisierung, Analytics, Kanäle) extrahiert werden
Veröffentlicht am

Was ist Digitalisierung? Eine einfache Erklärung.

Ein Tablet mit der Aufschrift "CONNECT" als Sinnbild der Digitalisierung

Digitalisierung beschreibt die Aufgabe, Werkzeuge, Prozesse und auch Kultur von einem analog-händischen auf einen digital-automatischen Weg umzustellen. Egal ob Unternehmen, Organisationen oder der Staat: Mit zunehmender Technologiedurchdringung steigt auch die Anforderung, digitale Produkte und Services anzubieten, um den Kundenanforderungen und Effizienzstandards gerecht zu werden. In diesem Artikel definieren wir was Digitalisierung ausmacht, wer dafür zuständig ist und worauf zu achten ist.

Inhaltsverzeichnis

Eine verständliche Definition was Digitalisierung ist 

“Der Stand der Digitalisierung in Deutschland” ist ein oft ironisch konnotierter Satz, wenn man über die digitalen Fähigkeiten von Schulen oder den Staatsapparat spricht. Doch was bedeutet Digitalisierung überhaupt? Formal definiert ist Digitalisierung die Überführung von analogen Prozessen, Methoden und Werkzeugen in eine digitale Version. 

Ein einfaches Beispiel ist ein Formular, das im analogen Zeitalter als Papierversion zugeschickt, vom Empfänger ausgefüllt und zurückgeschickt wird. Digitale Varianten würden mindestens den Download als PDF, noch besser eine komplett digitale Anmeldeformularversion umfassen. 

Digitalisierung vs. Digitale Transformation: Was ist der Unterschied?

Oft wird der Begriff Digitalisierung synonym mit Digitale Transformation verwendet. Dies ist jedoch nicht korrekt. Während Digitalisierung die (“wertfreie”) Überführung von manuellen Prozessen in digitale Versionen bezeichnet, bezieht sich digitale Transformation auf die Identifikation und den Einsatz von digitalen Geschäftsmodellen. Hierbei gilt es, die bisherige Fokussierung eines Unternehmens auf physische Produkte mindestens um digitale Innovation zu erweitern, gegebenenfalls sogar umzustellen.

Folglich ist Digitalisierung inzwischen für jedes Unternehmen Pflicht, um seine Kunden überhaupt bedienen zu können; digitale Transformation hingegen eine strategische Frage, wie sich Organisationen in Zukunft aufstellen möchten. 

Der Chief Digital Officer im Unternehmen: Was sind seine Aufgaben?

Dass sich Unternehmen mit der Digitalisierung beschäftigen ist ein Muss; dass sie eine Position auf oberster Führungsebene schaffen, die sich nur mit dem Thema beschäftigt, nimmt hingegen erst in den letzten Jahren immer weiter zu. Der Chief Digital Officer (CDO) hat zur Aufgabe, einerseits die Digitalisierung eines Unternehmens voran zu treiben, andererseits wird er gleichermaßen oft mit der digitalen Transformation beauftragt. 

Da die Digitalisierung alle Fachbereiche betrifft und somit eine starke Querfunktion beinhaltet, ist diese Position auch sehr stark von der Kooperation mit anderen Bereichen abhängig. Zum Beispiel ist einer der engsten Kollegen der CTO (Chief Technology Officer) oder der CIO (Chief Information Officer), um Systeme und Software zu definieren, einzukaufen und auszurollen. 

Die Schnittstelle vom Chief Data Officer (CDO) hingegen zeigt sich vor allem oft in Fragen der digitalen Transformation. Erst müssen digitale Prozesse existieren die Daten generieren, bevor mittels künstlicher Intelligenz und Data Mining aus diesen Daten Mehrwert generiert werden kann. Folglich führt der Chief Data Officer die Arbeit des Chief Digital Officers im Unternehmen weiter, konzentriert sich dabei auf den Aspekt der Daten und hat zur Aufgabe, Wert aus der Transformation zu schaffen.

Eine Frau steht vor einem Rechenzentrum
Der Chief Digital Officer (CDO) hat zur Aufgabe, die Digitalisierung in allen Bereichen voran zu treiben.

Erfolgsfaktoren für eine nachhaltige Digitalisierung

Dass eine Digitalisierung im heutigen Umfeld unumgänglich ist, ist klar ersichtlich. Doch wie schafft man es, die Digitalisierung erfolgreich und vor allem nachhaltig zu etablieren? Es sind einige grundlegende Faktoren, die den Wandel eines analogen Unternehmens in ein digitales beeinflussen:

  • Executive Buy-In: Der Wandel eines Unternehmens auf dieser Skala muss von der Geschäftsführung angestoßen werden, um erfolgreich zu sein.
  • Kulturwandel: Es reicht nicht, Prozesse und Werkzeuge auf digitale Versionen umzustellen. Die gesamte Kultur im Unternehmen muss auf die neue Denke angepasst und gefördert werden.
  • Mitnahme von Mitarbeitern: Veränderung ist oft für viele Mitarbeiter schwierig zu verdauen. Von Daher muss von Anfang an sehr klar und inklusiv vermittelt werden, weshalb eine Digitalisierung notwendig ist und was jeder Einzelne beitragen kann.
  • Durchdachte Änderungen: Wer sich im digitalen Umfeld bewegt, tendiert dazu blind alles in Apps und Daten einzusortieren. Es gibt jedoch mit Sicherheit Dinge, die analog, manuell und persönlich bleiben können und sollen. Daher sollten Änderungen im Zuge der Digitalisierung nicht blind, sondern geplant durchgeführt werden.
  • Kundenzentrierung: Digitalisierung sollte den Stein des Anstosses vom Kunden nehmen, nicht aus den eigenen Reihen. Alles, was hilft besser für Kunden und Mitarbeiter da zu sein lohnt es sich, im Zuge der Digitalisierung zu beachten. Nicht, weil es andere machen oder sich ein internes Projekt dafür ausspricht.

Vorteile und Gefahren von digitalen Prozessen, Produkten und Denkweisen

Eine Frau vor einem Laptop, die am Handy telefoniert.
Digitalisierung hat eine absolute Notwendigkeit, birgt allerdings auch Risiken.

Wie bei jeder strategischen Veränderung eines Unternehmens sollten wir uns fragen: Weshalb? Für wen? Was bringt es?

Das Gleiche gilt selbstverständlich für Digitalisierung. Auch wenn es unbestritten ist, dass man ohne Digitalisierung kaum mehr im heutigen Leben Schritt halten kann, sollte man dennoch einen Schritt zurück treten und bewusst analysieren, welche Vorteile das eigene Unternehmen von der Veränderung hat. Gleichermaßen gilt es auch, die individuellen Gefahren aufzuzeigen, um deren Auswirkungen mindestens abzumildern.

Vorteile von digitalen Unternehmen

  • Schnellere, effizientere Prozessabwicklung
  • Einfachere Anpassung und Ausrollung von neuen Entitäten
  • Bessere Erreichbarkeit
  • Besserer Kundenservice

Gefahren von digitalen Unternehmen

  • Verlust des Bezugs zu bestimmten Kundengruppen: zum Beispiel zu älteren Semestern
  • Übertechnologisierung: In jeder Option wird eine technologische Lösung gesehen, statt ggf. besserer menschlicher Lösungen.
  • Sinkende Loyalität: Durch schnelle Wechsel zu oder von digitalen Unternehmen sinkt Loyalität und somit customer lifetime value
  • Datenverlust: Während der Digitalisierung und danach besteht die Gefahr, dass Daten verloren gehen; bei analogen Unternehmen ist dies selten der Fall

Die Rolle von Daten in der Digitalisierung

Nun habe ich bereits mehrfach Daten im Zuge der Digitalisierung erwähnt. Dies hat den Hintergrund, dass Digitalisierung und Daten sehr eng miteinander verknüpft sind. Üblicherweise produzieren digitale Prozesse, Werkzeuge und Produkte (z.B. IoT) viele Daten. Ob diese Daten nachhaltig gespeichert werden ist eine breitere strategische Frage und fließt bereits in die Idee der digitalen Transformation.

Nichtsdestotrotz ist eine Umstellung auf ein digitales Unternehmen von großer Bedeutung für den Bereich Datenhaltung und -einsatz. Speziell was die Themen Datenspeicherung (z.B. Data Lake), Datenqualität oder Datenanalyse (z.B. Data Science) betrifft, gilt es jederzeit, die Daten in den Digitalisierungsprojekten mitzudenken. Denn die Digitalisierung ist die Basis für die digitale Transformation; und Daten sind das Öl, mit denen diese Maschinen laufen.

Beispiele für die Aufgaben der Digitalisierung

Ein Handy mit einem Post-It "Sign Here"
Die Umstellung von Kundeninteraktion auf Digitale Versionen ist ein Kerngebiet im Zuge der Digitalisierung.

Gerne zeigen wir anhand zweier Beispiele auf, wie Digitalisierung in einfachen Fällen umgesetzt werden kann. Diese vereinfachten Anwendungsfälle sollen verständlich machen, welcher Weg im Zuge der Digitalisierung zu beschreiten ist und welche Vorteile dadurch erlangt werden.

Beispiel 1: Digitaler Anmeldeprozess für Kunden

Situation: Kunden bekommen nach Kontakt ein Formular zugeschickt, das sie ausgefüllt zurückschicken müssen.

Problem: Falsche Einträge werden mühsam korrigiert, die Anträge gehen auf dem Postweg verloren oder dauern lange, es entstehen hohe Kosten durch die manuelle Bearbeitung und Aufnahme.

Lösungsansatz: Ein Online-Formular, bei dem sich Kunden direkt anmelden können.

Projektplan (Skizze):

  • Analyse IST-Situation, Definition Verwendungszwecke des Formulars, ggf. mit Customer-Journey
  • Definition Funktionsumfang mittels Use Cases, Kreation Back-Log
  • Definition Systeme, Datenbanken, Prozesse, Verantwortlichkeiten, DSGVO-Richtlinien
  • Agile Umsetzung mit Feedback-Loops durch Usability Tests, UX-Team
  • (Sukzessive) Umstellung auf neuen digitalen Anmeldeprozess

Beispiel 2: Automatisierte Paketsortierung

Situation: Pakete werden händisch für Zusteller vorsortiert.

Problem: Sehr hoher manueller Aufwand und Fehlerquelle, welche sich auf die gesamte nachfolgende Kette auswirkt.

Lösungsansatz: Bilderkennung der Adressaufkleber und automatisierte Sortierung.

Projektplan (Skizze):

  • Analyse notwendiger Komponenten (Hardware, Software)
  • Anbietervergleich und Entscheidung für Entwicklung oder Einkauf
  • Aufbau Hardware und Software zur Detektion (Kamera zur Bilderkennung die auf Künstlicher Intelligenz fußt) sowie Sortiermechanismus
  • Einbau Datenaufnahme von erfolgreich sortierten Paketen, Erkennungsfehlern, etc.
  • Testläufe und Umstellung des Systems
Veröffentlicht am

Customer Churn Prediction: Vorhersagen, wann Kunden kündigen

Customer Churn Prediction ist die Vorhersage von Kundenabwanderung durch Künstliche Intelligenz

Customer Churn Prediction sagt mittels Machine Learning vorher, wann Kunden ihre Mitgliedschaft kündigen oder Stammkunden nicht mehr einkaufen. Diese Information verlässlich vorherzusagen ist so wertvoll wie herausfordernd. In diesem Artikel möchten wir Customer Churn Prediction definieren, die einsetzbaren Methoden vorstellen und Vorteile und Gefahren erläutern.

Inhaltsverzeichnis

Was ist Customer Churn Prediction? Eine Definition.

To churn, auf Deutsch so viel wie “umwälzen”, wird im Zusammenhang von Customer Churn auf die Abwanderung von Kunden bezogen. Folglich ist die Customer Churn Rate die Kundenabwanderungsrate. Als Beispiel nehme man ein beliebiges Unternehmen, das wiederkehrende Kundenbeziehungen pflegt: Netflix, Amazon oder jeder B2B-Händler. Sobald man Kunden hat die mehrmals beim Unternehmen eingekauft haben oder eine Mitgliedschaft aufrechterhalten, gelten sie als wiederkehrende oder loyale Kunden.

Wiederkehrende Kunden haben den Vorteil, dass man sie besser mit Marketingmaßnahmen bespielen kann und sie eine gewisse Verlässlichkeit der Verkaufsplanung, vor allem bei Abo-Modellen wie Netflix, mit sich bringen. Je nach Studie zeigt sich, dass wiederkehrende Kunden um einen bis zu 20 fachen Umsatz generieren als Einmalkunden. Daher ist es für Unternehmen wichtig zu wissen, wie viele dieser wiederkehrenden Kunden abwandern werden – einerseits auf einem makroskopischen Level um die Unternehmensprozesse zu steuern, andererseits auf einem mikroskopischen Level um Gegenmaßnahmen für jeden Kunden einzuleiten.

Customer Churn Prediction ist also auf Deutsch die Vorhersage der Abwanderung von Kunden. Dabei wird mittels statistischer Modellierung (Machine Learning auf Big Data) berechnet, wie viele Kunden im kommenden Zeitraum (z.B. Monat oder Quartal) in Gefahr sind, zu kündigen oder nicht wiederzukehren. In fortgeschritteneren Analysen werden auch genau die Kunden identifiziert, die in diese Kategorie fallen um sie beispielsweise durch Servicemitarbeiter kontaktieren zu lassen. Hat ein Unternehmen sogar Prescriptive Analytics etabliert, würden Algorithmen auch automatisch diese in Gefahr laufende Kunden identifizieren und ein passgenaues Angebot zur “Customer Retention” ausspielen.

Welche Vorteile bietet Customer Churn Prediction?

Wie bereits skizziert, sind wiederkehrende Kunden bzw. treue Abonnenten sehr wertvoll für ein Unternehmen. Sie kosten kein Geld mehr in der Akquise (z.B. Werbung, AdWords, Gutscheine), man kann ihr Verhalten und somit ihre Vorlieben bereits analysieren (Personalisierung) und sie sorgen für eine verlässliche Planung von Umsatzzahlen durch oft zyklisches Einkaufsverhalten, vor allem bei monatlichen Bedarfen und/oder fixen Abrechnungszeiträumen.

Customer Churn Prediction setzt genau hier an. Durch den sehr hohen Wert von Stammkunden kann ein Unternehmen einerseits vorhersagen wie sich die gesamte Kundenabwanderungsrate verhalten wird (Customer Churn Rate), andererseits bezogen auf Einzelfallbasis vorhersagen ob ein Kunde abwandern oder einfach kündigen wird.

Der Fall der Customer Churn Rate ist ein wichtiges Thema in der Unternehmenssteuerung und der Organisation von Prozessen innerhalb eines Unternehmens. Wenn man vorhersagen kann, mit wie viel “Mindestumsatz” ein Unternehmen in den nächsten Monaten rechnen kann, kann entsprechend gesteuert werden. Ob nun Lieferantenkonditionen, Service-Mitarbeiter oder Recruiting: Alle operativen Aspekte hängen an der Kette des Ab- und Umsatzes eines Unternehmens und sind somit bei Wissen über diese Daten besser zu planen.

Während die Customer Churn Rate ein wichtiges strategisches Instrument ist, kann die Customer Churn Prediction auf Einzelkundenbasis noch mehr Dienste leisten. Da man durch die Vorhersage kundengenau bestimmen kann, wer sich vom Unternehmen wahrscheinlich abwendet, kann diese Information genutzt werden, um Gegenmaßnahmen zu ergreifen. Ob nun ein Gutschein oder ein individuelles Angebot – die Möglichkeiten um die User Retention hoch zu halten können vielfältig sein.

Neben diesen Hauptvorteile gibt es zwei weitere Aspekte, die oft übersehen werden, wenn sich ein Unternehmen einem Churn Prediction Projekt annimmt. Der erste Faktor ist, dass – je nach eingesetzter KI – nicht nur das “Ob” einer Kundenabwanderung vorhergesagt werden kann, sondern auch das “Wann”. Diese Information eignet sich hervorragend bei der Neukundenakquise oder im Customer Management: Wenn ich eine Wahrscheinlichkeit kenne, dass ein Kunde einen langen Zeitraum beim Unternehmen bleibt, kann ich entsprechend in diesen Kunden investieren. Im Umkehrschluss lohnt es sich gegebenenfalls ebenso, bei Kunden zu investieren, die gemäß Vorhersage nicht lange bleiben – falls sie nicht entsprechenden Service bekommen.

Der zweite sehr interessante Aspekt interagiert sehr stark mit den Konsequenzen des Wissens falls ein Kunde churnt. Denn – je nach Machine Learning Modell – kann man auch mittels der Algorithmen identifizieren, welche Faktoren einen großen Effekt auf den Customer Churn haben (z.B. Alter, Geschlecht, Anzahl an gekauften Produkten) und welche nicht (z.B. Ort, Jahreszeit). Mit diesem Wissen lässt sich dann möglichst zielgerichtete jede Maßnahme steuern und mit einem möglichst großen Effekt versehen – um Kunden lange zu binden.

Welche Methoden werden in der Churn Prediction eingesetzt?

Customer Churn Prediction ist ein Titel für einen Anwendungsfall innerhalb von Data Science bzw. im Machine Learning. Daher werden hierbei meist vor allem Supervised Machine Learning Methoden eingesetzt. Diese Methoden nutzen vorhandene Information (zum Beispiel die Information, welche Kunden bereits real abgewandert sind / nicht mehr kaufen / gekündigt haben) und errechnen darauf ein möglichst realitätsgetreues statistisches Modell.

Dabei gibt es zwei Arten von Supervised Machine Learning Algorithmen die bei Customer Churn oft zum Einsatz kommen. Möchte man nur das “Ob”, also die Customer Churn Rate vorhersagen oder ggf. eine binäre Vorhersage (Ja / Nein bzw. Wandert ab / wandert nicht ab) treffen, werden Klassifikationsalgorithmen eingesetzt. Diese Classifier (zum Beispiel logistische Regression, neuronale Netze / Deep Learning, Random Forests) ordnen neue Datensätze (zum Beispiel einen Kunden, der bisher Stammkunde ist) gemäß Modell in eine Kategorie (“Abwanderer” / “Stammkunde”).

Die andere Methodengruppe fällt in den Bereich der Regression. Die Regressionsalgorithmen sagen numerische Werte, also im Fall von Customer Churn Prediction die Dauer der Zugehörigkeit, vorher. Möchte man beispielsweise beim Abschluss eines Vertrags mit seinem Kunden bereits evaluieren, wie wahrscheinlich es ist, dass er lange Kunde bleibt – um ggf. entsprechende Konditionen anzubieten – kann eine Regression abschätzen, wie viele Monate oder Jahre er beim Unternehmen bleiben wird.

Während Supervised Machine Learning definitiv den Kern von Churn Prediction bildet, können natürlich auch andere Algorithmen und Datenanalysen zum Einsatz kommen. Angeführt von einfacher deskriptiver Datenanalyse zur explorativen Analyse über Unsupervised Machine Learning um Kundengruppen zu identifizieren bis hin zu Reinforcement Learning ist vieles möglich und nur der Wille zum Aufwand begrenzt die Kreativität.

Welche Daten kann man zur Customer Churn Prediction nutzen?

Es gibt eine ganze Bandbreite an Daten, die bei Customer Churn Prediction zum Einsatz kommen können. Die Empfehlung ist wie üblich im Machine Learning, sich erst einen Überblick zu verschaffen und dann mittels Feature Engineering und Feature Selection großzügig Datenquellen auszuschließen. Hier ein paar Anregungen, welche Daten zur Vorhersage von Customer Churn eingesetzt werden können:

  • Customer Management System (CMS)-Daten: Der hoffentlich beste Fundus an Daten für Customer Churn ist das CMS. Im Kundenverwaltungssystem sollten alle Stammdaten rund um einen Kunden gespeichert und seiner ID zugeordnet sein: Geschlecht, Alter, E-Mail-Provider, Dauer der Mitgliedschaft / Datum des Erstkaufs,
  • Transaktionsdaten: Doch die Kundenstammdaten alleine beinhalten meist nur einen Teil der Information, was einen Kunden ausmacht. Ein großer anderer Teil kommt üblicherweise aus Transaktionsdaten – ob nun E-Commerce-Shop, Enterprise Resource Planning (ERP) System oder andere: Welcher Kunde mit welchem Produkt oder Service interagiert und auf welche Art und Weise ist von hoher Relevanz für die Bindung von Kunden.
  • Produktdaten: Ob nun PIM oder MDM – die Information über die gekauften Produkte kann sehr gute Rückschlüsse zulassen, um welche Kundengruppe es sich handelt und ob eine langfristige Beziehung möglich ist.
  • Service Daten: Im Kundenservice laufen oft positive und auch negative Erlebnisse zusammen. So ist es nicht verwunderlich, dass oft kurz vor einer Abwanderung ein Servicekontakt zustande kam. Daher sind Service Daten in möglichst detaillierter Form ein großer Beitrag zur Genauigkeit des Modells.
  • Promotionsdaten: Wer seine Marketingdaten und somit alle Promotionen sauber in einem System erfasst, kann im Optimalfall auch Rückschlüsse ziehen welcher Kunde aufgrund welcher Promotion eine Geschäftsbeziehung einging. Oft sind es Einmalkunden, die nur durch eine besonders gute Promotion gekauft haben, dann aber sehr schwierig zu Stammkunden konvertieren.
  • Webanalytics: Sauberes Tracking im Webanalytics erlaubt es, das Verhalten der Kunden auf der Website, im E-Shop und weiteren wichtigen digitalen Produkten zu verfolgen. Dies wiederum ist ein sehr guter Input für viele Modelle, um die Vorhersage zu optimieren.
  • Newsletterdaten: Wer häufig positiv mit dem Unternehmen agiert, hat üblicherweise eine höhere Wahrscheinlichkeit der Organisation positiv gegenüber zu stehen. Folglich sind Newsletter-Interaktionen oft ein Signal für langfristige Kundenbeziehungen.
  • Geographische und Soziodemographische Daten: Wo die Kunden wohnen, wie alt sie sind und aus welcher Bevölkerungsschicht sie kommen lässt oft Rückschlüsse auf Wechselverhalten zu.
  • Bewegungsdaten: Reden wir von Kunden die sich auch in einem physischen Objekt wie einem Laden bewegen können, können wir hier Daten erfassen. Sicherlich nicht der Standard E-Commerce-Shop Datensatz, aber fast immer sehr interessant.

Selbstverständlich gibt es noch viele weitere, meist aber auch sehr individuelle Datenquellen, die die Genauigkeit von Customer Churn Prediction unterstützen. Daher gilt für jedes Unternehmen, eine umfassende Dateninventur zu vollziehen und somit das Potential für Churn An