Was sind unstrukturierte Daten: Definition und Beispiele

Inhalte Verbergen

1 Definition und Beispiele für unstrukturierte Daten

2 Strukturierte vs unstrukturierte Daten: Der Unterschied im Überblick

3 Was ist das besondere an unstrukturierte Daten?

4 Big Data vs. unstrukturierte Daten: Was ist der Unterschied? Oder ist es das gleiche?

5 Sind Internet of Things (IoT) Streaming Daten unstrukturiert?

6 Was ist Kobold AI?

7 (Big Data) Technologien für unstrukturierte Daten

8 Wie hängen unstrukturierte Daten und ein Data Lake bzw. Data Hub zusammen?

9 Die Zukunft von unstrukturierten Daten

10 Was ist Kobold AI?

Definition und Beispiele für unstrukturierte Daten

Als unstrukturierte Daten bezeichnet man Daten, die nicht in einem klassischen tabellarischen Format vorliegen oder in einer Datenbank gespeichert sind. Beispiele sind Bilder, Sound-Files, Videos, aber auch Text-Daten wie Artikel.

Im Unterschied zu strukturierten Daten benötigen unstrukturierte Daten eine andere Verarbeitungsart als herkömmlich verbreitet. So kann man beispielsweise bei strukturierten Daten einfach Rechenoperationen ausführen (z.B. Addition, Durchschnitt), bei unstrukturierten Daten hingegen nicht.

Strukturierte vs unstrukturierte Daten: Der Unterschied im Überblick

Genauer betrachtet gibt es einige Unterschiede zwischen strukturierten und unstrukturierten Daten. Im einfachsten Fall stellt man sich strukturierte Daten wie eine Excel-Tabelle vor. Jede Spalte hat einen Titel, jede Reihe mehrere Werte. Bei numerischen Inhalten können einfach Rechenoperationen durchgeführt werden wie beispielsweise die Summe eines Attributs oder der Mittelwert mehrere Spalten.

Unstrukturierte Daten hingegen können in diesem Beispiel als Ordner auf einer Festplatte definiert werden. Hier können jede Art von Daten (Multimedia, Sound, Textdokumente, etc) gespeichert werden. Doch eine analytische Auswertung wie bei Tabellen ist nicht so einfach möglich sondern erfordert zusätzliche (Vor-)Verarbeitung.

Was ist das besondere an unstrukturierte Daten?

Während strukturierte Daten sehr bekannt und häufig auch verarbeitet sind, bieten unstrukturierte Daten in vielen Fällen noch Wissen, das nicht erschlossen wurde. Die höhere Anforderung an die Analyse ist auch der Grund, weshalb unstrukturierte Daten attraktiv für Data Scientists sind.

Ein weiterer Vorteil ist die nähere Abbildung der Realität bzw. die Möglichkeit Daten durch verschiedene Kanäle aufzunehmen. Ob nun Sensoren oder Kameras oder Mikrofone: Oft kann durch diese Datentypen mehr abgebildet werden, als kondensierte und verarbeitete numerische Werte.

Ein dritter Aspekt ist die hohe Granularität der Daten. Während strukturierte Daten in einem Data Warehouse immer mit einem Informationsverlust einhergehen, sind unstrukturierte Rohdaten per se erst einmal noch reicher an Information. Dies führt dazu, dass Data Mining auch zu weiteren Erkenntnissen stoßen kann, welche noch nicht auf herkömmlichen Analysen erschlossen wurden.

Big Data vs. unstrukturierte Daten: Was ist der Unterschied? Oder ist es das gleiche?

Eines der Hauptmerkmale von Big Data ist die Unstrukturiertheit der Daten. Daher werden unstrukturierte Daten häufig mit Big Data Algorithmen und Technologien gleich gesetzt. Die beiden Kategorien sind jedoch nicht identisch. Es gibt Big Data, die definitiv nicht unstrukturiert sind (zum Beispiel Streaming Data), als auch unstrukturierte Daten, die nicht Big Data sind (zum Beispiel einzelne Media-Assets).

Sind Internet of Things (IoT) Streaming Daten unstrukturiert?

Der nächste Begriff der häufig im Zusammenhang mit unstrukturierten Daten genannt wird ist das Internet der Dinge (Internet of Things, IoT). IoT generiert in den meisten Fällen hochfrequente Streaming Daten. Diese können unstrukturiert sein (zum Beispiel Bilder) oder strukturiert (zum Beispiel Temperatur). Daher gibt es oft eine Korrelation zwischen dem Internet der Dinge und unstrukturierten Daten, jedoch sind die beiden Konzepte nicht identisch.

(Big Data) Technologien für unstrukturierte Daten

Während strukturierte Daten meist als Datendumps als comma-seperated-File (csv), Excel oder vor allem in Data Warehouses gespeichert werden, benötigen unstrukturierte Daten andere Datenhaltungssysteme.

Skaliert gesehen ist die einfachste Ablage für unstrukturierte Daten noch immer das berühmte “Netzwerklaufwerk”. Die korrespondierende Big Data Technologie dazu wäre in diesem Fall ein Hadoop Cluster, der nicht auf einem einzigen Server basiert, sondern (z.B. mittels Cloudtechnologie) nahezu beliebig skaliert werden kann. Dies ist vor allem für große Datenmengen nötig, aber auch Redundanz und andere Faktoren sind bestimmend. Der Zugriff auf derartige Daten erfolgt mittels Frameworks wie Spark oder auch spezialisierten Services wie Amazon Kendra für Text-Daten.

Eine andere Sparte sind Datenbanken für unstrukturierte Daten. Diese sogenannten NoSQL-Datenbanken benötigen (meistens) kein vorher fix definiertes Schema, sondern können Daten beliebigen Schemas verwalten. Im Bereich von Informationsdaten (zum Beispiel Transaktions oder Stammdaten) bietet sich zum Beispiel das JSON-Format einer MongoDB an, bei Multimediadaten wie Bildern kann eine Datenbank wie Cassandra aushelfen.

Hier noch eine grobe Übersicht an Big Data Technologien für unstrukturierte Daten:

MongoDB
Hadoop mit Spark und Databricks
Elastic Stack

Wie hängen unstrukturierte Daten und ein Data Lake bzw. Data Hub zusammen?

Wie bereits anskizziert werden strukturierte Daten meist in einem Data Warehouse gespeichert. Bei unstrukturierten Daten gab es historisch schnell Skalierungsprobleme, weshalb andere Big Data Technologien eingeführt wurden. Eine der Hauptlösungen ist Hadoop. Hadoop wurde dann zur Basis des originären Data Lakes – also einfach eine Dateiablage, die skaliert.

Heute sind die Gegebenheiten anders. Zwar ist nach wie vor einer der Vorteile, dass Data Lakes auch unstrukturierte Daten erfassen und speichern können (im Gegensatz zum Data Warehouse), aber auch strukturierte Daten fallen in die Kategorie Data Lake bzw. Data Hub.

Die Zukunft von unstrukturierten Daten

Während die produzierten Datenmengen kontinuierlich steigen, wird der Anteil an unstrukturierten Daten in Zukunft immer weiter zunehmen. Social Media, Voice Assistants, IoT – es gibt viele Datenproduzenten, die große Mengen an Daten produzieren werden. Durch Big Data Analytics, Data Science und Machine Learning geraten diese Arten von Daten immer mehr in den Fokus von Unternehmen.

Durch Data Lakes und andere Big Data Technologien werden unstrukturierte Daten auch zunehmend einfacher verarbeitet werden. Zusammengenommen mit dem immer steigenden Angebot werden unstrukturierte Daten in Zukunft für jedes Unternehmen eine immer größere Rolle spielen.