Machine Learning Labels einfach erklärt

Was sind Labels im Bereich Machine Learning?

Als „Labels“ werden im Supervised Machine Learning die Kategorien von Daten bezeichnet, in die die Datensätze eingeordnet werden sollen. Somit sind Labels, auf Deutsch Beschriftung oder „Kategorie“, der Output auf den das Machine Learning Modell trainiert wird. Auch die Vorhersage – genau genommen nur in Classification Algorithmen – gibt als Ergebnis ein Label zurück.

Was ist der Unterschied zwischen Supervised und Unsupervised Machine Learning?

Während Labels im Bereich Supervised Machine Learning fundamental sind um die Algorithmen zu trainieren, benötigen Unsupervised Machine Learning Algorithmen diese Zusatzinformation nicht, da sie rein auf den Dateninhalten operieren. Überwachtes maschinelles Lernen sagt eine Kategorie oder Zahl vorher – unüberwachtes maschinelles Lernen arbeitet rein auf Ähnlichkeiten der Daten, nicht aber auf vorher definierten Kategorien. 

Wie werden Labels für Machine Learning erstellt?

Labels können sowohl automatisch als auch händisch erstellt werden. Automatische Labels machen jedoch nur Sinn, falls die extrahierte Information nur in einem Teildatensatz verfügbar ist; sonst könnte man die Information direkt für vorhandene und spätere Daten direkt extrahieren.

In Realität werden Labels allerdings in 90% der Fälle manuell erstellt. Dies kann bereits während vorhergehender Prozesse geschehen (z.B. das Label „schlechte Datenqualität“ oder „Vielkäufer“) oder spezifisch für das Machine Learning Training. Dazu gibt es eine eigene „Spalte“ („Feature“) im Datensatz, die später vorhergesagt wird.

Warum sind Labels so wichtig für Supervised ML?

Ganz einfach: Ohne Labels können Algorithmen wie künstliche neuronale Netze nicht trainiert werden. Sie sind die Basis für die Optimierung des statistischen Modells auf eine „Aussage“. Fehlende Labels bedeuten daher, dass keine Optimierung vorgenommen werden kann. In einem solchen Fall können nur andere Verfahren wie Unsupervised Learning eingesetzt werden.

Noch schlimmer als fehlende Labels sind allerdings Labels von schlechter Qualität. In einem solchen Fall werden die Algorithmen dann auf falsche Aussagen trainiert, was in Realität einfach zu falschen oder inkohärenten Aussagen des Machine Learning Modells führt. Zusammengefasst sind nicht oder schlecht gelabelte Daten im Supervised Machine Learning nicht zu gebrauchen.

Braucht man Labels auch im Bereich Regression?

Ganz formal spricht man im Bereich Regression, also der Vorhersage von numerischen Werten, nicht von Labels für die Vorhersage. Labels sind generell immer Kategorien. Im Bereich Regression spricht man daher von „Prediction“ oder „Target“, was allgemeinere Begriffe für die Vorhersagezielwerte sind.

Data Labeling – eines der größten Probleme in den kommenden Jahren?

Mit der steigenden Nutzung von Machine Learning, vor allem von Deep Learning und anderen Klassifiern, steigt auch die Notwendigkeit für Label. Viele Unternehmen sagen Voraus, dass Data Labeling einer der größten Bottle Necks in den kommenden Jahren sein wird. Denn wer Daten vorhersagen möchte, braucht Labels. Und wer Daten gut vorhersagen möchte, braucht viele Daten. Dies führt zu einer hohen Anforderung an qualitativ hochwertig gelabelten Daten in den kommenden Jahren – etwas, worauf sich bereits jetzt viele Unternehmen vorbereiten sollten.