Was ist kaggle? Die Data Science Plattform einfach erklärt

Kaggle ist eine Plattform, um seine Fähigkeiten im Bereich Datenanalyse und Machine Learning zu zeigen und sich gegen andere zu Vergleichen. Als Belohnung werden oft Preisgelder über $10.000 ausgeschrieben.

Inhaltsverzeichnis

Was ist Kaggle?

Das kaggle Logo
Kaggle ist eine Wettbewerbsplattform für Data Science und Machine Learning

Kaggle ist eine auf Data Science spezialisierte Plattform, bei der regelmäßig Wettbewerbe ausgeschrieben werden. Meist geht es um die Optimierung von Machine Learning basierten Vorhersagen, zum Beispiel Time Series Forecasting oder Klassifikation. Durch reale von Organisationen bereitgestellte Daten und Preisgelder, die teilweise eine Millionenhöhe erreichen, entsteht dadurch ein gegenseitiges Messen der Fähigkeiten der Teilnehmer und die “Jagd” auf die Top Platzierungen.

Generell läuft ein Wettbewerb so ab, dass ein Unternehmen oder eine andere Organisation Daten und eine Problembeschreibung (z.B. “Vorhersage des Umsatzes im Monat X”) einstellt. Darauf basierend können die Teilnehmer oder Teilnehmer-Teams ihre Lösungen erarbeiten und hochladen (meist als ID-Prediction pair). 

Beispiel eines Kaggle Wettbewerbs mit $60.000 Preisgeld
Beispiel eines Kaggle Wettbewerbs mit $60.000 Preisgeld

Diese Lösungen werden dann automatisiert gewertet und somit das Leadership-Board geformt. Umso niedriger der Fehler, also umso besser die Vorhersage, umso höher die Platzierung. Dabei ist es abhängig vom Wettbewerb, wie die Fehler berechnet werden, meist jedoch einfach ein Squared Mean Error oder ein ähnliches Maß.

Die Geschichte von Kaggle

Kaggle wurde 2010 in Los Angeles gegründet, im Jahr 2017 durch Google übernommen und erreichte im gleichen Jahr über eine Millionen Mitglieder. Von Beginn an war Kaggle als “Competition Platform” ausgezeichnet und widmete sich der Herausforderung, Machine Learning als Optimierungsproblem zu vermarkten.

Inzwischen findet man auf Kaggle nicht nur hunderte von Wettbewerben, sondern auch eine Datenbank von öffentlich zugänglichen Datensätzen und Kurse. Somit nimmt Kaggle eine zunehmend zentralere Rolle im Werdegang von vielen Data Scientists ein, da hier erste praktische Erfahrung gesammelt werden kann, die über vorbereitete Standarddatensätze (Titanic, iris..) hinausgeht.

Wer ist die Zielgruppe für Kaggle?

Die kaggle Community
Mit zunehmender Relevanz von Data Science wächst auch die Kaggle Community

Während Kaggle anfangs mehr für erfahrene Data Scientists und Machine Learning Engineers gedacht war, deckt es inzwischen ziemlich das gesamte Erfahrungsspektrum im Bereich Data Science und KI ab. Die herausfordernden Wettbewerbe für erfahrene Data Scientists bleiben der zentrale Bestandteil von Kaggle, allerdings gibt es durch das umfassende Angebot immer mehr interessante Aspekte für Einsteiger. 

Speziell durch die veröffentlichbaren Notebooks, die Code von Teilnehmern beinhalten, können Neueinsteiger schnell Einblicke in andere Denk- und Analyseweisen erhalten und eigene Ideen umsetzen. Weiterhin gibt es relativ alte, aber dafür sehr zugängliche Wettbewerbe, die sich gut zur Wissenserweiterung eignen.

Was macht Kaggle so besonders?

Kaggle war die erste öffentliche Plattform, die sich mit dem Thema “Machine Learning als Wettbewerb” beschäftigt hat. Die Attraktivität von hohen Preisgeldern ist ein Faktor, aber alleine eine sehr hohe Platzierung in den Wettbewerben gilt oft als Auszeichnung für die Teilnehmer. Besonders hervorzuheben ist dabei die Möglichkeit Notebooks, also Scripte, zu veröffentlichen. 

Meist gibt es in jedem Wettbewerb sehr bald ein öffentlich verfügbares Notebook, das eine Basisanalyse (explorative Datenanalyse mit ggf. erster Modellierung) bereit stellt. Darauf aufbauend können Verfeinerungen erarbeitet werden. Selbstverständlich kann man auch komplett für sich selbst arbeiten, ohne Scripte zu veröffentlichen.

Beispiel eines Notebooks in einer Kaggle Competition
Beispiel eines Notebooks in einer Kaggle Competition

Häufige Fragen zu Kaggle (FAQ)

In welchen Programmiersprachen wird auf Kaggle gearbeitet?

Ob nun python oder R oder auch Java – die Erarbeitung hat keinen Einfluss auf die Wettbewerbe bei Kaggle. Da nicht das Script die Lösung ist, die bewertet wird, sondern nur die Vorhersagen als .csv, kann man diesen Output mit allem generieren was einem einfällt.

Wer allerdings direkt mit dem Kaggle Notebook Environment arbeiten möchte, ist auf python oder R angewiesen. Dafür hat er aber die Vorzüge, direkt auf den von Kaggle bereitgestellten Ressourcen zu arbeiten.

Wie wird man Kaggle Grandmaster?

Grandmaster ist die letzte Stufe des Kaggle Progression Systems. Um Kaggle Grandmaster zu werden muss in einer der vier Kategorien Wettbewerbe, Datasets, Notebooks und Diskussion kontinuierlich herausragende Leistung erbracht werden. 

Beispiel eines kaggle Grandmaster Profils
Der Kaggle Competitions Grandmaster Titel ist der begehrteste der vier Grandmaster

Um zum Beispiel Notebook Grandmaster zu werden benötigt man 15 Goldmedaillen, wobei eine Medaille für 50 Upvotes steht, neue Mitglieder und alte Posts ausgeschlossen sind. Folglich muss man in 15 verschiedenen Wettbewerben eine außergewöhnlich gute Grundanalyse veröffentlichen, um Kaggle Grandmaster zu werden. Die meisten setzen Kaggle Grandmaster jedoch mit der Kategorie “Competitions” gleich, da hier die Analysen bewertet werden. Hier ist üblicherweise eine Top10-Platzierung in etlichen Wettbewerben nötig; und das bei mehreren Tausend Teilnehmenden.

Insgesamt ist die höchste Stufe im Kaggle Progression System somit 4x Kaggle Grandmaster, etwas, was bisher sehr wenig Personen erreicht haben. Genau genommen mit Stand 20.01.2021 genau drei von über 150.000 aktiven Teilnehmern: Chris Deotte, Vopani und Abhishek Thakur.

Das Kaggle Titanic Data Set

Screenshot des kaggle titanic data sets
Kaggle bietet einen sanften Einstieg in ihre Plattform durch das Titanic Dataset

Nicht nur bei Kaggle, sondern generell im Bereich Data Science kommt oft das Titanic Dataset zum Einsatz, so man Klassifikation praktisch umsetzen möchte. Kaggle führt seine neuen Nutzer direkt durch die Analyse des Datasets als eine Art Tutorial, wie Kaggle als Plattform funktioniert und wie man Lösungen einreicht.

Ist Kaggle kostenlos?

Ja, eine Kaggle Mitgliedschaft ist kostenlos. Um Datensätze herunter zu laden oder an den Wettbewerben teilzunehmen muss man jedoch registriert sein.

Was kann man bei Kaggle gewinnen?

Üblicherweise haben Kaggle Competitions Barpreise im unteren fünfstelligen Bereich, aber auch höhere Preisgelder sind möglich. Es gibt auch Wettbewerbe ohne Gewinn oder mit anderen Preisen wie zum Beispiel Mitgliedschaften bei Unternehmen oder ähnliches.

Wo finde ich Datasets bei Kaggle?

Kaggle hat inzwischen eine eigene Sektion nur für öffentlich zugängliche Datensätze: https://www.kaggle.com/datasets

Um die Daten herunterzuladen muss man allerdings registriert sein.

Wem gehört die Plattform Kaggle?

Gegründet und geführt wird die Plattform von Anthony Goldbloom und Ben Hamner. Inzwischen hat Google die Plattform gekauft und ist somit der Besitzer. 

Wer sollte bei Kaggle mitmachen?

Wir empfehlen Kaggle mindestens einmal ausprobiert zu haben. Nur wer viel Zeit und Erfahrung mitbringt, wird auch gute Ergebnisse abliefern können, von daher kommt es wie üblich auf eine Priorisierung an. Generell gilt aber, wenn jemand noch kaum praktische Erfahrung im Bereich Machine Learning sammeln konnte, kann Kaggle ein guter Startpunkt sein, um sich wirklich um die Probleme im Bereich Data Science zu kümmern.