Der Data Scientist: Alles was man wissen muss (mit Infografik)

Der Data Scientist – “The sexiest job in the 20th century” – titelte die Harvard Business Review. Doch was macht ein Data Scientist eigentlich genau? Und wie wird man Data Scientist? In diesem Artikel versuchen wir das Profil eines Datenwissenschaftlers darzustellen, seine Aufgaben zu definieren und zu skizzieren, wie man diese Laufbahn einschlagen kann.

Allgemein gesagt, betreut der Data Scientist die gesamte Prozesskette von Datenverwendung. Von der Definition eines datenbasierten Anwendungsfalls über die Identifikation der Datenquellen zur Analyse und gegebenenfalls dem Training von Machine Learning Modellen.

Als Datenwissenschaftler muss man eine breite Kombination an verschiedenen Fertigkeiten mitbringen. Vor allem auf Basis von großen Datenmengen, also Big Data, entfalten Data Scientists ihre volle Wirkung.

Inhaltsverzeichnis

Infografik Data Scientist: Beschreibung, Aufgaben und Tools

Infografik Data Scientist
Infografik zur Definition, den Aufgaben und den Tools des Data Scientists

Die Aufgaben und Skills: Was macht ein Data Scientist?

Data Scientist Aufgaben
Die Aufgaben des Data Scientists sind je nach Spezialisierung sehr breit

Als Datenwissenschaftler hat man die Aufgabe, datenbasierte Anwendungsfälle zu definieren und umzusetzen. Somit nimmt man eine Mischrolle ein: Einerseits geht es um gutes Verständnis des Unternehmens und deren Produkten, andererseits um technische Expertise. Genauer umfasst die Arbeit des Data Scientists folgende Aufgaben:

  • Ansprechpartner für Domänenexperten für Data Science
  • Identifikation und Ausarbeitung von datenbasierten Use Cases
  • Identifikation von passenden (Big Data) Datenquellen 
  • Anbindung von Datenquellen oder Zugriff auf Data Warehouse oder Data Lake
  • Prüfung der Datenqualität, deskriptive Analyse der Daten
  • Erstellen von Attributen (Feature Engineering)
  • Trainieren, Testen und Validieren von Machine Learning Modellen; “Big Data Analytics”
  • Operationalisierung der Erkenntnisse durch Deployment oder Visualisierung
  • Kommunikation der Ergebnisse

Kleine Unternehmen oder jene, die am Anfang der Nutzung von Daten stehen, konzentrieren dieses sehr breite Anwendungsfeld auf eine Person (ein sogenanntes “Unicorn”). Je nach Unternehmensgröße und Stand der Digitalisierung bzw. Big Data Strategie ist es allerdings natürlich unrealistisch, dass alle Fähigkeiten in einer Rolle vereint sind. Daher haben Data Scientists heute sehr verschiedene Foki in ihrer Arbeit oder spezialisieren sich auf einzelne Prozessschritte, wie der Data Engineer zur Bereitstellung der Daten, der Machine Learning Engineer zur Modelloptimierung oder der Data Translator als Schnittstelle zur Business-Domäne.

Welche Tools nutzt ein Data Scientist?

Data Scientist Tools
Ein Auszug aus den Werkzeugen des Data Scientists

So breit wie die Aufgaben des Data Scientists, so breit sein Toolset. Im Zentrum stehen wohl die Programmiersprachen python und R. Sie werden genutzt um Daten-Pipelines zu schreiben, die Daten zu verarbeiten und selbstverständlich zu analysieren. Machine Learning Pakete erlauben eine einfache Umsetzung der Modellierung, durch Visualisierungspakete lässt sich gut explorative Datenanalyse betreiben.

Neben diesem Handwerk, das jeder Data Scientist beherrschen sollte, gibt es aber selbstverständlich inzwischen anwenderfreundliche Tools. Zur Datenextraktion eignen sich ETL-Tools wie Pentaho oder Azure Data Factory, zur Modellierung oder dem Data Mining zum Beispiel das GUI-basierte KNIME oder Google AutoML. Das Deployment erfolgt im Anschluss beispielsweise über Docker oder die Bereitstellung von APIs, welche auch gerne in Java umgesetzt werden. Werden Daten visualisiert und an das Business ausgespielt, eignen sich Tools wie Tableau oder PowerBI.

Aber auch Tools, die sich im Bereich des Data Governances befinden sollten einem Data Scientist nicht fremd sein. Datenquellen sauber dokumentieren, Inhalte definieren und deren Einsatz erfassen – alles Aufgaben, die zwar nur indirekt die eigene Arbeit beeinflussen, aber langfristig die Qualität verbessern. Als Beispiele seien hier Informatica, Azure Data Catalogue oder Talend aufgeführt.

Einen breiteren Auszug der Tools und Technologien genutzt von Data Scientists hier in Tabellenform:

NameKategorie
Python, z.B. scikit, TensorFlow, kerasAnalytics & Machine Learning
RAnalytics & Machine Learning
SQLAnalytics & Pipelines
ScalaAnalytics & Machine Learning
JuliaAnalytics & Machine Learning
JavaPipelines
TalendPipelines
PentahoPipelines
SparkPipelines
RapidMinerPipelines & Machine Learning
KNIMEPipelines & Machine Learning
Microsoft AzureCloud
Google CloudCloud
Amazon Web Services (AWS)Cloud
TableauVisualisierung
PowerBIVisualisierung
MicroStrategyVisualisierung
DockerDeployment

Wie grenzt man Data Scientists von Data Analysts und Data Engineers ab?

Oft herrscht Verwirrung, welche Aufgaben Datenwissenschaftler im Vergleich zu anderen Rollen übernehmen. Und diese Unklarheit ist nachzuvollziehen, denn weder Data Science als Bereich noch der Data Scientist als Rolle sind klar definiert. Zudem ändern sich ständig die Anforderungen sowie die Kompetenzen.

Generell gilt aber, dass der Data Scientist sich vom Data Analyst unterscheidet, indem er stärker auf Advanced Analytics Methoden wie Künstliche Intelligenz und maschinelles Lernen setzt. Ebenso ist er verstärkt in Cloud Technologien und Programmierung involviert, während Data Analysts eher auf die Verbindung zur Business-Domäne und Visualisierung von Daten setzen. 

Im Vergleich zum Data Engineer sind die Data Scientists einerseits viel umfassender am gesamten Datenprozess beteiligt, andererseits hört die Arbeit der Engineers mit der Bereitstellung der Daten auf. Daher kann man argumentieren, dass Data Engineers sich auf den Datenakquise- und Bereitstellungsprozess professionalisieren, während Data Scientists die Auswertung übernehmen. Zusammengenommen:

TitelData ScientistData AnalystData Engineer
AufgabeDefiniert Anwendungsfälle und nutzt Advanced Analytics um sie zu implementieren.Analysiert und visualisiert Daten.Betreibt und füllt Dateninfrastrukturen.
Ähnliche RollenMachine Learning Engineer, Artificial Intelligence ExpertBusiness AnalystBig Data Engineer, Software Engineer, Cloud Specialist

Wie wird man Data Scientist?

Mit dem Hype der Datennutzung ist auch der Beruf des Data Scientists auf einem Allzeithoch. Sowohl was Jobs, als auch was Nachwuchskräfte betrifft. Dementsprechend sprießen Onlinekurse, Ausbildungen, Weiterbildungen, Coaches und Studiengänge aus dem Boden. Daher ist es für angehende Datenwissenschaftler inzwischen schwierig, sich im Angebotsdschungel zu orientieren und zu erkennen, was gute Grundlagen für diese Position sind. Hier nochmal zusammengefasst, welche Fähigkeiten man als Data Scientist mitbringen sollte:

Als Wege zur Ausbildung zum Data Scientist sehen wir folgende Möglichkeiten:

  • Onlinekurse wie z.B. Coursera oder Udacity: Für Ein- oder Umsteiger meist ein guter Überblick über Basiswissen, inklusive angewandte Problemstellungen. Dennoch oft sehr künstliche Umgebungen, die verhindern, dass man an realen Problemen (z.B. Datenextraktion, Datenqualität) lernt.
  • Wettbewerbe bzw. Competitions wie z.B. Kaggle: Gut, um Machine Learning Fähigkeiten auszuprobieren; wer die Zeit und Fähigkeiten für einen oberen Platz hat, ist meist für eine Machine Learning Optimisation Engineering Stelle sehr attraktiv. Hier fehlen die Aspekte Datenakquise, -konsolidierung, explorative Datenanalyse (EDA) und Vermittlung des Mehrwerts an die Business-Stakeholder, da meist eine sehr konkrete Aufgabe gestellt ist.
  • Universitätskurse oder -abschlüsse wie z.B. Informatik, Physik oder neuerdings Data Science: Ein Studium ist perfekt um sich theoretisch und praktisch in die Materie einzuarbeiten. Meist kommt auch die Businessansicht bei einem Studium nicht zu kurz, weshalb auch dieses Verständnis trainiert wird. Problematisch sind die künstlichen Daten mit denen gearbeitet wird sowie die lange Ausbildungszeit.
  • Praktische “Hobby”-Projekte, die z.B. ein Github Portfolio aufbauen: Diese angewandten Probleme sind meist sehr sinnvoll, um auch praktischen Problemen im Datenkreislauf zu begegnen. Vom Aufsetzen der Infrastruktur über das Nutzen von Cloud Services bis hin zur Frage des Effekts eines Use Cases sollte ein praktisches Projekt die meisten Herausforderungen abdecken. Zu kurz könnte die Verbindung zum Business und vor allem auch die theoretische Ausbildung kommen.

Wie man sieht, gibt es keine Goldene Methode um Data Scientist zu werden. Wer plant, Data Science als Disziplin einzuschlagen, muss sich vielmehr über eine Kombination der Möglichkeiten ausbilden. Wir empfehlen daher, hierarchisch geordnet sich über einen theoretischen Kurs (z.B. Studium oder Online) in einen praktischen Test Case (z.B. Kaggle) zu bewegen, um dann Wissen und Kenntnisse in einem “Pet Project” auszuspielen. Am Ende werden meist die Data Scientists bevorzugt werden, die den Problemen bei sowohl Use Case Umsetzung als auch Modellierung begegnet sind und ihre praktische Erfahrung direkt in ein Unternehmen einbringen können.

Welches Gehalt bekommt man als Data Scientist?

Wie üblich ein schweres Thema, da sich das Gehalt immer sehr stark nach Aufgaben, Erfahrung und Firmengröße und -branche richtet. Dennoch möchte ich hier grobe Anhaltspunkte geben, womit man als Data Engineer rechnen kann:

JuniorData ScientistMid-LevelData ScientistSeniorData Scientist
Berufserfahrung0 – 3 Jahre2 – 6 Jahre> 5 Jahre
ExpertiseGrundlegendes Wissen über Artificial Intelligence, Machine Learning und erste praktische Erfahrungen. Fortgeschrittene Programmierkenntnisse. Eigenständige Umsetzung mehrere Projekte bei einer Bandbreite von Algorithmentypen. Breite Erfahrung mit Problemen in Akquise, Analyse und Operationalisierung. Grundlegendes Verständnis über Businesswert von Use Cases.Leitung und vollumfängliche Umsetzung mehrer Anwendungsfälle von Datenpotential über Umsetzung bis Operationalisierung. Breite Erfahrung in der Optimierung von verschiedenen Machine Learning Algorithmen. Hohe Bandbreite an Tools und Technologien, um Projekte umzusetzen. Klares Bild von Relevanz und Priorisierung von Use Cases.
Gehaltsrichtlinie40.000€ – 60.000€ 50.000€ – 90.000€80.000€ – 130.000€

Für Manager: Worauf ist bei Einstellung eines guten Data Scientists zu achten?

Eine Stellenanzeige ist im Bereich Data Science bzw. Big Data so zu formulieren, damit man auch die richtigen Bewerber anzieht, ist nicht einfach. Vor allem durch den großen Hype um Data Science und die unklare Definition wer nun “Data Scientist” ist, bekommt man nicht unbedingt immer passende Profile. Aber auch Unternehmen sind hierbei frei von Ursache: Die meisten Stellenbeschreibungen passen auf so ziemlich alle Personen im Bereich “Data”. Daher gilt für Manager, bereits vor Beginn von Auswahlgesprächen:

  • Man muss selbst ein sehr klares Bild vom Status des Unternehmens auf dem Weg zur Data Driven Company haben
  • Es muss sehr klar sein und kommuniziert werden, welche Aufgaben der Data Scientist übernehmen soll. Generische Terminologie, fehlende Technologieangaben oder Teamgrößen schüren Unmut auf beiden Seiten.
  • Umso “junioriger” die Stelle, umso weniger Anforderungen sollten formuliert werden. Ein Junior Data Scientist mit 20 Jahren Erfahrung ist Unfug. 
  • Umso senioriger die Stelle, umso genauer sollte die Stelle beschrieben, sowie eine Gehaltsspanne definiert sein.

Wie man sieht, ist vor allem Transparenz und klare Zielsetzungen das Thema bei Stellenausschreibungen für Data Scientists. Dieser Filter erlaubt es, ausreichend, aber zielgenaue Profile zu bekommen. Falls zu wenig Bewerbungen eintreffen, muss an einer der Stellschrauben gedreht werden: Anforderungen, Gehalt oder Aufgabenattraktivität.

Im zweiten Schritt, also den Auswahlgesprächen, sollten vor allem auf folgende Punkte geachtet werden:

  • Wie passt das Profil des Bewerbers auf die gesetzte Erwartung in den Kategorien Erfahrung, technisches Wissen und kultureller Fit?
  • Kann das Unternehmen mit diesem Profil die nächsten Schritte in Richtung Data Driven Company gehen?
  • Data Science ist ein Team Sport – ist es der Bewerber auch?
  • Tools kann man lernen, ein technologisches Grundwissen und Affinität sind eher Charakterzüge
  • Versteht der Bewerber die ethischen und strategischen Implikationen von Data Science?
  • Hat der Bewerber ein Mindestmaß an praktischer Erfahrung, um Anfängerfehler zu vermeiden?

Zusammen genommen gilt es, mehr auf Erfahrung und weitreichende Arbeitsweise zu setzen denn als auf spezifische Tools. Denn der Einsatz von spezifischen Tools soll sehr variabel bleiben, ein Data-driven Mindset hingegen muss bleiben.