Der Unterschied zwischen Datenanalyse und Big Data Analytics
Vor der Erfindung von Hadoop waren die Technologien, die den modernen Speicher- und Rechensystemen zugrunde liegen, relativ schlicht. Daher waren die Unternehmen meist auf die Analyse von „Small Data“ (also kleinen Datenbeständen) beschränkt. Aber selbst diese relativ simple Analysetechnik konnte sich als schwierig erweisen – insbesondere die Integration neuer Datenquellen. Bei der traditionellen Datenanalyse, die sich auf relationale Datenbanken (wie SQL-Datenbanken) stützt, die aus Tabellen mit strukturierten Daten bestehen, muss jedes Rohdatenbyte auf eine bestimmte Weise formatiert werden, ehe es zur Analyse in die Datenbank aufgenommen werden kann. Dieser oft langwierige Prozess, der gemeinhin als „Extract, Transform, Load“ (kurz „ETL”) bezeichnet wird, ist für jede neue Datenquelle erforderlich. Das Hauptproblem dieses dreiteiligen Prozesses und Ansatzes besteht darin, dass er äußerst zeit- und arbeitsintensiv ist und Data Scientists und Engineers manchmal bis zu 18 Monate brauchen, um ihn umzusetzen oder zu ändern. Waren die Daten jedoch erst einmal in der Datenbank, dann war es für Datenanalysten in den meisten Fällen ein Leichtes, sie abzufragen und zu analysieren. Doch dann kamen Internet, E-Commerce, soziale Medien, mobile Geräte, Marketingautomatisierung, das Internet der Dinge (IoT) usw. auf, und Größe, Volumen und Komplexität der Rohdaten wurden für alle außer eine Handvoll Institutionen einfach zu groß, um sie im Rahmen des normalen Geschäftsbetriebs zu analysieren.
Was ist Big Data Analytics?
Als Big Data Analytics bezeichnet man den oft komplexen Prozess der Untersuchung großer und heterogener Datensets: die so genannten „Big Data“. Sie stammen aus verschiedenen Quellen wie dem E-Commerce, mobilen Geräten, den sozialen Medien und dem Internet der Dinge (IoT). Der Vorgang umfasst die Einbindung verschiedener Datenquellen, die Umwandlung unstrukturierter in strukturierte Daten und die Gewinnung von Erkenntnissen aus diesen Daten mithilfe spezialisierter Tools und Verfahren, die die Datenverarbeitung auf ein ganzes Netzwerk verteilen. Die Menge der vorhandenen elektronischen Daten wächst rasant und verdoppelt sich alle zwei Jahre. Big Data Analytics ist eine Lösung, die für die Verwaltung und Analyse dieser zahllosen Datenquellen einen anderen Ansatz bietet. Zwar gelten die Prinzipien der traditionellen Datenanalyse im Allgemeinen weiterhin, doch Umfang und Komplexität von Big Data Analytics erforderten die Entwicklung neuartiger Methoden zur Speicherung und Verarbeitung strukturierter und unstrukturierter Daten im Petabyte-Bereich. Durch die Nachfrage nach höheren Geschwindigkeiten und größeren Speicherkapazitäten entstand ein Technologievakuum, das bald durch neue Speichermethoden wie Data Warehouses und Data Lakes und nicht-relationale Datenbanken wie NoSQL sowie Datenverarbeitungs- und Datenverwaltungstechnologien und Frameworks wie die Open-Source-Lösungen Apache Hadoop, Spark und Hive gefüllt wurde. Big Data Analytics nutzt fortschrittliche Verfahren zur Analyse enorm großer Datenmengen, die strukturierte, halbstrukturierte und unstrukturierte Daten aus verschiedenen Quellen und in unterschiedlichen Volumina vom Terabyte- bis zum Zettabyte-Bereich umfassen.
Die gebräuchlichsten Datentypen bei Big Data Analytics sind:
- Webdaten. Daten zum Webverhalten von Kunden, beispielsweise Besuche, Seitenaufrufe, Suchanfragen, Käufe usw.
- Textdaten. Daten, die aus Textquellen wie E-Mails, Nachrichtenartikeln, Facebook-Feeds, Word-Dokumenten und vielem mehr generiert werden. Sie gehören zu den umfangreichsten und meistverwendeten Arten von unstrukturierten Daten.
- Zeit- und Standortdaten (Geolocation). GPS und Handys wie auch WLAN-Verbindungen machen Zeit- und Standortinformationen zu einer wachsenden Quelle interessanter Daten. Hinzu kommen auch geografische Daten zu Straßen, Gebäuden, Gewässern, Anschriften, Personen, Arbeitsstätten und Transportwegen, die aus geografischen Informationssystemen generiert wurden.
- Echtzeitmedien. Echtzeitdatenquellen können Echtzeit-Streaming oder ereignisbasierte Daten umfassen.
- Daten aus intelligenten Stromnetzen und von Sensoren. Sensordaten von Fahrzeugen, Ölpipelines, Windkraftanlagen und weiteren Sensoren werden oft in extrem kurzen Abständen erfasst.
- Daten aus sozialen Netzwerken. Die Menge unstrukturierten Texts (Kommentare, Likes usw.) von Websites sozialer Netzwerke wie Facebook, LinkedIn oder Instagram wächst stetig. Es ist sogar möglich, eine Link-Analyse durchzuführen, um das Netzwerk eines bestimmten Benutzers zu entschlüsseln.
- Verknüpfte Daten: Solche Daten werden mithilfe von Standardtechnologien im Web – z. B. HTTP, RDF, SPARQL und URLs – gesammelt.
- Netzwerkdaten. Daten aus sehr großen sozialen Netzwerken wie Facebook und X oder Technologienetzwerken wie dem Internet, dem Telefon- oder einem Transportnetz.
Big Data Analytics hilft Unternehmen dabei, ihre Daten zu nutzen und fortschrittliche Data-Science-Verfahren und -Methoden wie z. B. die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), Deep Learning und maschinelles Lernen einzusetzen, um verborgene Muster, unbekannte Zusammenhänge, Markttrends und Kundenvorlieben aufzuspüren und so neue Chancen zu erkennen und fundiertere Geschäftsentscheidungen zu treffen.
Vorteile der Verwendung von Big Data Analytics sind:
- Kostensenkung. Cloud Computing und Speichertechnologien wie Amazon Web Services (AWS) und Microsoft Azure sowie Technologien wie Apache Hadoop, Spark und Hive können Unternehmen dabei helfen, ihre Ausgaben für die Speicherung und Verarbeitung großer Datenmengen zu senken.
- Verbesserte Entscheidungsfindung. Mit der Geschwindigkeit von Spark und In-Memory-Analysen in Verbindung mit der Möglichkeit zur schnellen Analyse neuer Datenquellen können Unternehmen unmittelbare und umsetzbare Erkenntnisse gewinnen, die für Entscheidungen in Echtzeit erforderlich sind.
- Neue Produkte und Dienstleistungen. Mithilfe von Tools für Big Data Analytics können Unternehmen die Bedürfnisse ihrer Kunden genauer analysieren und ihnen so leichter genau die Produkte und Dienstleistungen bieten, die sie sich wünschen.
- Betrugserkennung. Big-Data-Analysen werden auch zur Betrugsprävention herangezogen. Das gilt zwar noch vor allem für die Finanzdienstleistungsbranche, aber auch in anderen Bereichen gewinnen sie zunehmend an Bedeutung und werden immer häufiger eingesetzt.