Was ist Data Mining? Definition, Methoden und Tools

Einfach gesagt beschreibt Data Mining das Vorgehen, Daten auf Muster und Trends zu untersuchen, ohne vorab zu wissen, wonach man sucht. Im Gegensatz zu anderen Datenanalyse-Projekten gibt es keine Hypothese oder direkte Fragestellung, sondern es wird explorativ ein vorliegender Datensatz untersucht.

Im Gegensatz zu Data Science, was den gesamten Datenprozess betrachtet, fokussiert sich Data Mining daher konkret auf die operative Aufgabe neue Informationen in Daten zu finden. Diese ungerichteten Analysen finden meist Anwendung auf strukturierten Daten, aber auch auf unstrukturierten Daten werden oft in Betracht gezogen. Daher kommt “Big Data” – sowohl in Aspekten des Volumens und der Variabilität – oft zum Einsatz, ist aber weder Voraussetzung noch identisch, denn auch kleine, statische Datensätze können großartige Erkenntnisse beherbergen.

Inhaltsverzeichnis

Infografik Data Mining

Data Mining Infografik
Infografik zu Definition, Merkmale und Tools von Data Mining

Welche Methoden nutzt Data Mining?

Infografik Methoden Data Mining
Data Mining nutzt verschiedene Methoden aus Data Science und künstlicher Intelligenz

Data Mining nutzt eine Bandbreite an Methoden um Daten auf Muster zu untersuchen. Hierbei gilt das Prinzip, dass es keinen festen Prozessablauf für die Analysen gibt, sondern aus dem Methodenbaukasten gemäß Erfahrung und Kreativität des Data Scientists ausgewählt wird. 

Die deskriptive Untersuchung mittels klassischer Statistik ist meist ein erster Schritt, sowohl im Data Mining als auch anderen Aufgaben. Das Herzstück des Data Mining ist jedoch die Anwendung von Machine Learning. Vor allem im Big Data Mining werden Methoden der künstlichen Intelligenz angewandt, um Muster implizit zu identifizieren. 

Hierbei wird meist initial auf Methoden des Unsupervised Learnings zugegriffen. Clustering zum Beispiel erlaubt es, Gruppen mit ähnlichem Verhalten zu identifizieren. Assoziationsanalysen hingegen zeigen auf, welche Ereignisse oft gemeinsam auftreten – das klassische Beispiel von Warenkorbanalysen ist vielen bekannt. Aber auch Ausreißeranalysen (Outlier detection) geben Einblicke in den Umfang, die Varianz und Besonderheiten des Datensatzes.

Aber auch Methoden des Supervised Learnings finden im Data Mining Anwendung. Die Klassifizierung (Classification) ordnet Daten in Kategorien ein, während Prediction (z.B. Regression) numerische Werte vorhersagt. Diese Methoden finden allerdings meist in einem späteren Schritt Anwendung, wenn man schon eine genauere Vorstellung hat, welche Muster genauer analysiert werden sollen.

Wer betriebt Data Mining?

Man kann im Prinzip drei Stufen der Data Mining Maturität innerhalb eines Unternehmens unterscheiden – und dementsprechend auch welche Rolle sich dem Thema widmet. Die erste Stufe ist die “Neugier”-Stufe. Diese Stufe nehmen sehr viele Personen und Unternehmen natürlich ein: Wenn man z.B. Saleszahlen präsentiert, ist normalerweise der erste Versuch zu verstehen, wie sie sich verhalten und wieso. Diese Neugier nach einem Verständnis bleibt aber in dieser Stufe unbefriedigt, weil entweder Zeit, Expertise oder die nötigen Daten fehlen.

Die zweite Stufe im Data Mining ist die prozessuale Stufe. Das Suchen nach Mustern wird oft im Zuge von Initiativen und/oder vorhandener Analysen betrieben. Als Beispiel wäre, dass man beginnt, die Saleszahlen granular feiner aufzuschlüsseln und nach Mustern zu suchen. Vielleicht gibt es unterschiedliche Kundengruppen die sich saisonal unterschiedlich verhalten? Ein exploratives Untersuchen eines Themas oder Gebiets findet in dieser Stufe statt.

Die dritte Stufe ist die Grüne Wiese (Greenfield Approach). In dieser Stufe gibt es Personen oder eine ganze Einheit die ohne Thema oder Vorgabe Daten untersuchen. Die wenigsten Unternehmen “leisten” es sich, Kapazität und Budget in Tätigkeiten zu investieren, bei denen ein ROI komplett unbekannt ist. Daher ist die Grüne Wiese sehr selten, aber wird immer öfter nötig werden, da die oberste Analyticsschicht von Daten sehr schnell erörtert ist. Und dann gilt es, tieferliegende, nicht erkenn- oder erdenkbare Muster zu identifizieren. Dies geht nur mit der Freiheit eines Greenfield Approachs.

Welche Tools werden im Data Mining eingesetzt?

Infografik Data Mining Tools
Es gibt eine ganze Bandbreite an Tools für Data Mining

Es gibt verschiedene Herangehensweisen um operativ Data Mining zu betreiben. Die meisten Data Scientists setzen ihre Algorithmen in den Programmier-/Skriptsprachen python oder R um. Auch Java findet man teilweise, hat jedoch andere Stärken als Machine Learning und Data Handling. 

Während dies Code-basierte Lösungen sind, hat sich zudem ein Markt für GUI-basierte Lösungen etabliert. Hier hat der Nutzer ein Interface, in dem er die verschiedenen Datensätze explorieren und mittels entsprechender Algorithmen analysieren kann. Die häufigsten Vertreter dieser Variante sind RapidMiner, das Freeware Tool KNIME, SAS DataMiner oder IBM SPSS.

Als dritte Methode werden oft Visualisierungstools eingesetzt. Neben grafischen Möglichkeiten von codebasierten Tools (z.B. ggplot2, plot.ly, d3.js) oder den integrierten Visualisierungen von GUI-basierten Tools gibt es auch spezialisierte Software. Neben Tableau, PowerBI, Google Data Studio, MicroStrategy, Qlik gibt es noch viele weitere, die sich auf diesen Bereich fokussieren.

Zu guter letzt ist es tatsächlich auch möglich in rudimentären Tools wie Excel Data Mining – zumindest in den Grundzügen – zu betreiben. Diese stoßen sehr schnell an ihre Grenzen, vor allem wenn es an tiefergehende Machine Learning Algorithmen geht oder es sich um große Datenmengen handelt. Dennoch können sie auch in kleinen Unternehmen schnell eingesetzt werden, um ein grundlegendes Verständnis über die Ausprägungen, Attribute und Inhalte eines Datensatzes zu informieren.

Welche Probleme kann es geben?

Doch wenn Data Mining einfach wäre, würde es wohl jeder machen. Wir sehen drei Hauptkategorien, weshalb tiefergehendes Data Mining nach wie vor selten eingesetzt wird. 

Als erstes müssen entsprechende Daten vorhanden sein. Als “vorhanden” gilt, wenn auf ausreichend Daten (Volume) einfach zugegriffen (Access) werden kann und diese Daten von hoher Qualität (Quality) sind. Wenn eine dieser Annahmen verletzt ist, ist Data Mining schwierig möglich oder ineffizient. Zum Beispiel kann eine auf wenig Werte aggregierte Tabelle nicht sinnvoll gemined werden. Oder der Aussagegehalt der Ergebnisse ist sehr gering, wenn die Qualität der darunter liegenden Daten mangelhaft ist. Das Aufbereiten und Bereitstellen der Daten deckt klassischerweise der Data Engineer ab – nicht der Data Scientist, der sie dann verarbeitet.

Als zweites benötigt Data Mining, vor allem als fortgeschrittene Methode, starke fachliche Expertise. Diese Data Science Fähigkeiten sind auch heute noch selten in Unternehmen weit verbreitet, weshalb deren Kapazität meistens auf Projekte mit direkter abschätzbarem Erfolg konzentriert wird. Wenn Unternehmen allerdings die ersten Gehversuche in Datenanalyse und Data Science betrieben haben, sind die nächsten Schritte oft ganz natürlich.

Als drittes wird Erfahrung benötigt. Es ist sehr einfach, wenn man auf einer grünen Wiese arbeitet, sich in großen Datensätzen mit vielen Metriken zu verlieren. Es gibt nahezu unendliche Möglichkeiten Datensätze zu kombinieren, Interaktionen und Korrelationen zu untersuchen. Ohne Ziel wird auch der Weg oft sehr lange. Von daher gilt es, einerseits ausreichend Erfahrung zu sammeln wann es sich lohnt Spuren zu folgen, andererseits auch Mut zu haben, Vorstösse ohne weiteres abzubrechen, falls sich kein Erfolg einstellt. Am besten wird dieses Vorgehen mittels agiler Methoden, in Daily Standups oder ähnlichem unterstützt, dass der Prozess keine Neverending Story wird.

Beispiele für Anwendungsfälle im Bereich Data Mining und KI

Zusammenfassung

Ich hoffe ich konnte einen guten Überblick über das Thema Data Mining geben. Zusammengefasst sei gesagt, dass Data Mining am Ende nichts weiter ist als Schatzsuche. Mittels viel Erfahrung, spezialisierter Tools und auch einem hohen Vorabinvest gibt es die Möglichkeit, auf Schätze – in Form von Erkenntnissen – zu stossen, von denen man bisher nichts wusste. Diesen Vorabinvest zu tätigen und sich einem solchen volatilen Vorgehen zu öffnen ist allerdings Teil der Kultur einer Data Driven Company und muss erst entwickelt werden. Denn nur wenn diese Aspekte kombiniert werden können – Strategie, Daten und Expertise – ist man erfolgreich im Data Mining.