Was ist Hadoop?

Apache Hadoop ist eine Java-basierte Open-Source-Softwareplattform, die Datenverarbeitung und -speicherung für Big-Data-Anwendungen verwaltet. Die Plattform verteilt Hadoop-Big-Data- und -Analyseaufträge auf die Knoten eines Rechenclusters und zerlegt sie in kleinere Workloads, die parallel ausgeführt werden können. Einige der wesentlichen Vorteile von Hadoop sind Skalierbarkeit, Ausfallsicherheit und Flexibilität. Das Hadoop Distributed File System (HDFS) bietet Zuverlässigkeit und Resilienz durch Replikation jedes Knotens im Cluster auf die anderen Cluster-Knoten zum Schutz vor Hardware- oder Softwareausfällen. Die Flexibilität von Hadoop ermöglicht die Speicherung von strukturierten und unstrukturierten Daten jeglichen Formats.

Allerdings bringen Hadoop-Architekturen eine Reihe von Anforderungen mit sich, die sich zum Großteil erst im Laufe der Zeit manifestieren. Hadoop kann äußerst komplex – die Einrichtung, Wartung und Aktualisierung erfordert sein erhebliche Ressourcen und Fachkenntnisse. Außerdem ist es aufgrund der häufigen Lese- und Schreibvorgänge zur Durchführung von Berechnungen zeitaufwändig und ineffizient. Auch verschlechtern sich die langfristigen Aussichten für Hadoop zusehends, weil die großen Hadoop-Anbieter sich von der Plattform abwenden und die Notwendigkeit einer schnelleren digitalen Transformation viele Unternehmen dazu veranlasst, ihre Bindung an Hadoop zu überdenken. Daher ist die beste Lösung zur Modernisierung Ihrer Datenplattform eine Migration von Hadoop auf die Databricks Lakehouse-Plattform. Mehr über die Probleme mit Hadoop und zum Umstieg auf moderne Datenplattformen erfahren Sie in unserem Blogbeitrag.

Ähnliche Themen erkunden

Das Big Book of Data Engineering

Bringen Sie Ihre Kompetenzen auf Kurs – mit diesem unverzichtbaren Leitfaden für das KI-Zeitalter.

Jetzt lesen

Erste Schritte mit ETL

Informieren Sie sich über ETL-Pipelines – mit diesem technischen Leitfaden von O'Reilly.

JETZT HERUNTERLADEN

Data Engineering jetzt erlernen

Sehen Sie sich vier Videos an und absolvieren Sie ein Quiz, um einen Badge zu erhalten.

Erste Schritte

Was ist Hadoop-Programmierung?

Im Hadoop-Framework ist der Code größtenteils in Java geschrieben, ein kleiner Teil des nativen Codes basiert jedoch auf C. Außerdem sind Utilitys für die Befehlszeile in der Regel als Shell-Skripte angelegt. Für Hadoop MapReduce wird am häufigsten Java verwendet, aber über ein Modul wie Hadoop Streaming können Benutzer die Programmiersprache ihrer Wahl zur Implementierung der Map- und Reduce-Funktionen verwenden.

Was ist eine Hadoop-Datenbank?

Hadoop ist keine Lösung für Datenspeicher oder relationale Datenbanken. Als Open-Source-Framework dient es vielmehr dazu, große Datenmengen gleichzeitig in Echtzeit zu verarbeiten.

Die Daten werden im HDFS gespeichert, das jedoch als unstrukturiert gilt und somit nicht die Voraussetzungen für eine relationale Datenbank erfüllt. Tatsächlich können Daten bei Hadoop in unstrukturierter, halbstrukturierter oder strukturierter Form gespeichert werden. Das bietet Unternehmen eine größere Flexibilität bei der Verarbeitung von Big Data in einer Weise, die ihren geschäftlichen und sonstigen Anforderungen entspricht.

Was für eine Art von Datenbank ist Hadoop?

Technisch gesehen ist Hadoop an sich keine Datenbank etwa wie SQL oder ein RDBMS. Stattdessen stellt das Hadoop-Framework den Nutzern eine Verarbeitungslösung für eine Vielzahl von Datenbanktypen zur Verfügung.

Hadoop ist ein Softwareökosystem, mit dem Unternehmen in kürzester Zeit gewaltige Datenmengen verarbeiten können. Zu diesem Zweck wird eine Parallelisierung der Datenverarbeitung in großem Maßstab eingesetzt. Verschiedene Datenbanken wie Apache HBase können auf Datenknoten-Cluster verteilt werden, die sich auf Hunderten oder gar Tausenden herkömmlichen Servern befinden.

Wann wurde Hadoop erfunden?

Als Suchmaschinen wie Yahoo und Google an den Start gingen, wurde Apache Hadoop aus der Notwendigkeit heraus geboren, immer größere Mengen an Big Data zu verarbeiten und Webergebnisse schneller zu liefern.

Inspiriert von MapReduce – einem Programmiermodell von Google, das eine Anwendung in kleine Bruchteile zerlegt, um sie auf verschiedenen Knoten auszuführen – starteten Doug Cutting und Mike Cafarella 2002 das Hadoop-Projekt, als sie mit Apache Nutch befasst waren. Doug benannte Hadoop einem Artikel der New York Times zufolge nach dem Spielzeugelefanten seines Sohns.

Ein paar Jahre später wurde Hadoop aus Nutch ausgegliedert. Nutch legte den Schwerpunkt auf das Webcrawler-Element, während Hadoop den Teil der verteilten Berechnung und Verarbeitung übernahm. Im Jahr 2008 – 2 Jahre nach Cuttings Wechsl zu Yahoo – veröffentlichte Yahoo Hadoop als Open-Source-Projekt. Die Apache Software Foundation (ASF) stellte Hadoop dann im November 2012 als Apache Hadoop der Öffentlichkeit zur Verfügung.

Welche Bedeutung hat Hadoop?

Hadoop war eine wichtige Entwicklung im Big-Data-Bereich. Es gilt gemeinhin als Grundlage für moderne Cloud Data Lakes. Hadoop hat die Rechenleistung demokratisiert und es Unternehmen ermöglicht, große Datasets mit kostenloser Open-Source-Software und auf preiswerter, handelsüblicher Hardware in skalierbarer Weise zu analysieren und abzufragen.

Das stellte eine bedeutende Entwicklung dar, denn Hadoop bot eine echte Alternative zu den proprietären DW-Lösungen (Data Warehouse) und geschlossenen Datenformaten, die bis dahin vorherrschend gewesen waren.

Mit der Einführung von Hadoop erhielten Unternehmen rasch die Möglichkeit, enorme Datenmengen zu speichern und zu verarbeiten, und profitierten von höherer Rechenleistung, Fehlertoleranz, Flexibilität bei der Datenverwaltung, niedrigeren Kosten im Vergleich zu DWs und besserer Skalierbarkeit. Letztendlich ebnete Hadoop den Weg für nachfolgende Entwicklungen in der Big-Data-Analyse, etwa die Einführung von Apache Spark.

Wofür wird Hadoop verwendet?

Was die möglichen Anwendungsfälle von Hadoop angeht, gibt es fast keine Grenzen.

Einzelhandel

Große Unternehmen verfügen über mehr Kundendaten als je zuvor. Allerdings ist es häufig schwierig, Zusammenhänge zwischen großen Mengen scheinbar beziehungsloser Daten herzustellen. Nachdem das britische Einzelhandelsunternehmen M&S das Hadoop-gestützte Cloudera Enterprise implementiert hatte, war es von den Ergebnissen mehr als beeindruckt.

Cloudera nutzt Hadoop-basierte Unterstützung und Dienste für die Verwaltung und Verarbeitung von Daten. Kurz nach der Implementierung der cloudbasierten Plattform erkannte man bei M&S, dass man Daten nun erfolgreich für deutlich verbesserte prädiktive Analysen nutzen konnte.

Das führte zu einer effizienteren Warehouse-Nutzung, verhinderte Engpässe bei „unerwarteten“ Nachfragespitzen und verschaffte dem Unternehmen einen erheblichen Vorteil gegenüber der Konkurrenz.

Finanzen

Hadoop eignet sich für den Finanzsektor vielleicht besser als für jeden anderen Bereich. Schon früh wurde das Software-Framework vor allem für die Verarbeitung fortgeschrittener Algorithmen im Zusammenhang mit der Risikomodellierung eingesetzt. Das ist genau die Art von Risikomanagement, die dazu hätte beitragen können, die katastrophalen Kreditausfälle zu verhindern, die zur Rezession von 2008 geführt haben.

Banken haben außerdem erkannt, dass diese Logik auch für das Risikomanagement von Kundenportfolios gilt. Daher ist es für Finanzinstitutionen heutzutage üblich, durch Implementierung von Hadoop die finanzielle Sicherheit und Performance der Vermögenswerte ihrer Kunden besser zu verwalten. JPMorgan Chase ist nur einer von vielen Branchenriesen, die Hadoop einsetzen, um exponentiell wachsende Bestände von Kundendaten aus der ganzen Welt zu verwalten.

Gesundheitswesen

Unabhängig davon, ob es sich um staatliche oder private Einrichtungen handelt: Gesundheitsversorger jeglicher Größe haben es heute mit riesigen Volumina an Daten und Kundeninformationen zu tun. Mit Hadoop-Frameworks können Ärzte, Pflegekräfte und Betreuer jederzeit leicht auf alle erforderlichen Informationen zugreifen. Ebenso einfach ist es, Daten zu aggregieren, um daraus handlungsrelevante Erkenntnisse zu gewinnen. Diese können mit Fragen der öffentlichen Gesundheit, besserer Diagnostik, optimierten Behandlungsmethoden und mehr zusammenhängen.

Auch akademische und Forschungseinrichtungen setzen ein Hadoop-Framework ein, um ihre Anstrengungen zu intensivieren. Nehmen Sie zum Beispiel den Bereich der Erbkrankheiten, zu denen auch Krebs gehört. Die Entschlüsselung des menschlichen Genoms hat ergeben, dass es insgesamt fast drei Milliarden Basenpaare umfasst. Theoretisch haben wir jetzt alles, was wir brauchen, um ein ganzes Heer von Krankheiten zu heilen, direkt vor Augen.

Allerdings werden Systeme wie Hadoop benötigt, um komplexe Zusammenhänge zu erkennen und eine derart große Informationsmenge zu verarbeiten.

Sicherheit und Rechtsdurchsetzung

Hadoop kann auch dazu beitragen, die Sicherheit auf nationaler und lokaler Ebene wirksam zu stärken. Wenn es um die Aufklärung miteinander zusammenhängender Straftaten geht, die sich über mehrere Regionen erstrecken, kann die Strafverfolgung mithilfe eines Hadoop-Frameworks rationalisiert werden, das in der Lage ist, zwei scheinbar isolierte Ereignisse in einen Zusammenhang zu bringen. Durch die beschleunigte Verknüpfung von Taten sind die Behörden in der Lage, andere Behörden und die Öffentlichkeit unverzüglich zu informieren.

2013 kam die US-Sicherheitsbehörde National Security Agency (NSA) zu dem Schluss, dass die Open-Source-Software Hadoop den teuren Alternativen überlegen war, die sie zuvor implementiert hatten. Mittlerweile nutzen sie das Framework, um Terrorismus, Cyberkriminalität und weitere Bedrohungen zu erkennen.

Wie funktioniert Hadoop?

Hadoop ist ein Framework, das die Verteilung riesiger Datasets innerhalb eines Clusters aus handelsüblicher Hardware ermöglicht. Die Hadoop-Verarbeitung erfolgt parallel auf mehreren Servern gleichzeitig.

Clients senden Daten und Programme an Hadoop. Einfach ausgedrückt verwaltet das HDFS (eine Hauptkomponente von Hadoop) die Metadaten und das verteilte Dateisystem. Anschließend verarbeitet und konvertiert Hadoop MapReduce die Eingabe- und Ausgabedaten. Zum Schluss verteilt YARN die Aufgaben auf den Cluster.

Mit Hadoop können Clients eine deutlich effizientere Nutzung von Standardressourcen mit hoher Verfügbarkeit und eingebauter Fehlererkennung erwarten. Darüber hinaus können Clients mit schnellen Reaktionszeiten rechnen, wenn sie Abfragen auf vernetzten Geschäftssystemen durchführen.

Alles in allem stellt Hadoop eine relativ einfache Lösung für Unternehmen dar, die das Maximum aus Big Data herausholen möchten.

In welcher Sprache ist Hadoop geschrieben?

Das Hadoop-Framework selbst ist größtenteils in Java erstellt. Weitere verwendete Programmiersprachen sind etwa nativer Code in C sowie Shell-Skripte für die Befehlszeile. Allerdings können Hadoop-Programme in vielen weiteren Sprachen wie Python oder C++ geschrieben sein. Das bietet Programmierern die Flexibilität, mit den Tools arbeiten zu können, mit denen sie am besten vertraut sind.

So verwenden Sie Hadoop

Wie wir bereits erwähnt haben, stellt Hadoop eine einfache Lösung für Unternehmen dar, die Big Data verwalten müssen. Das bedeutet aber nicht, dass es immer unkompliziert zu handhaben wäre. Wie wir den obigen Anwendungsfällen entnehmen konnten, sind Sie bei der Implementierung des Hadoop-Frameworks ziemlich flexibel.

Wie Ihre Business Analysts, Data Scientists und Entwickler Hadoop einsetzen, hängt vom Unternehmen und dessen Zielen ab.

Hadoop ist nicht für jedes Unternehmen geeignet, aber die meisten Organisationen sollten ihre Beziehung zu Hadoop neu bewerten. Wenn Ihr Unternehmen im Rahmen seiner Kernprozesse riesige Datenmengen verarbeitet, stellt Hadoop eine flexible, skalierbare und erschwingliche Lösung dar, die Ihre Anforderungen erfüllt. Von da an hängt es hauptsächlich von der Phantasie und den technischen Fähigkeiten ab, die Sie und Ihr Team mitbringen.

Hadoop-Beispielabfrage

Hier finden Sie einige Beispiele dafür, wie man Hadoop-Abfragen vornimmt:

Apache Hive

Apache Hive war die erste Standardlösung für SQL-Abfragen mit Hadoop. Dieses Modul emuliert Verhalten, Syntax und Schnittstelle von MySQL, um die Programmierung zu erleichtern. Es ist eine ausgezeichnete Wahl, wenn Sie bereits intensiv mit Java-Anwendungen gearbeitet haben, da es über eine integrierte Java-API und JDBC-Treiber verfügt. Hive stellt eine schnelle und unkomplizierte Lösung für Entwickler dar, ist aber auch relativ eingeschränkt, da die Software verhältnismäßig langsam ist und Probleme mit schreibgeschützten Funktionen hat.

IBM BigSQL

Bei dieser Lösung von IBM handelt es sich um eine leistungsstarke massiv-parallele SQL-Engine für Hadoop. Die Abfragelösung richtet sich an Organisationen, die eine stabile und sichere Umgebung benötigen. Neben dem Zugriff auf HDFS-Daten kann BigSQL auch Daten aus RDBMS, NoSQL-Datenbanken, WebHDFS und weiteren Datenquellen abrufen.

Was ist das Hadoop-Ökosystem?

Der Begriff Hadoop ist ein allgemeiner Name, der sich auf jedes der folgenden Systeme beziehen kann:

Das übergeordnete Hadoop-Ökosystem, das sowohl die Kernmodule als auch verwandte Untermodule umfasst.
Die Hadoop-Kernmodule: das Hadoop Distributed File System (HDFS), Yet Another Resource Negotiator (YARN), MapReduce und Hadoop Common (siehe nachstehende Beschreibung). Das sind die Basisbausteine einer typischen Hadoop-Implementierung.
Hadoop-Untermodule wie Apache Hive, Apache Impala, Apache Pig und Apache Zookeeper sowie Apache Flume und weitere. Mit diesen einschlägigen Softwarepaketen lassen sich die Funktionen des Hadoop-Kerns anpassen, optimieren oder erweitern.

Was sind die Kernmodule von Hadoop?

HDFS: das Hadoop Distributed File System. HDFS ist ein Java-basiertes System, das die fehlertolerante Speicherung großer Datasets auf den verschiedenen Knoten eines Clusters gestattet.
YARN: Yet Another Resource Negotiator. YARN wird zur Verwaltung von Cluster-Ressourcen, zur Planung von Aufgaben sowie zur Terminierung von Jobs verwendet, die auf Hadoop ausgeführt werden.
MapReduce: MapReduce ist sowohl ein Programmiermodell als auch eine Big-Data-Verarbeitungs-Engine, die für die parallele Verarbeitung großer Datasets verwendet wird. Ursprünglich war MapReduce die einzige in Hadoop verfügbare Ausführungs-Engine. Später kamen jedoch weitere Engines mit Hadoop-Unterstützung hinzu, darunter Apache Tez und Apache Spark.
Hadoop Common: Hadoop Common bietet eine Reihe von Diensten in Form von Bibliotheken und Utilitys zur Unterstützung der anderen Hadoop-Module.

Welche Komponenten umfasst das Hadoop-Ökosystem?

Das Hadoop-Ökosystem besteht aus mehreren Kernkomponenten.

HDFS

Das Hadoop Distributed File System ist der Ort, an dem die gesamte Datenspeicherung beginnt und endet. Diese Komponente verwaltet große Datenmengen übergreifend auf unterschiedlichen strukturierten und unstrukturierten Datenknoten. Gleichzeitig pflegt sie die Metadaten in Form von Logdateien. Es gibt zwei Sekundärkomponenten von HDFS namens NameNode und DataNode.

NameNode

Der Master-Daemon in Hadoop HDFS heißt NameNode. Diese Komponente verwaltet den Namespace des Dateisystems und regelt den Clientzugriff auf die betreffenden Dateien. Sie wird auch als Primärknoten bezeichnet und speichert Metadaten wie die Anzahl der Blöcke und deren Speicherorte. Der NameNode umfasst im Wesentlichen Dateien und Verzeichnisse und übernimmt die Ausführung von Dateisystemaufgaben wie das Benennen, das Schließen und das Öffnen von Dateien.

DataNode

Die zweite Komponente ist der sekundäre Daemon, der unter der Bezeichnung DataNode läuft. Diese HDFS-Komponente speichert die eigentlichen Daten oder Blöcke, wenn die vom Client angeforderten Lese- und Schreibfunktionen ausgeführt werden. Der DataNode ist daher auch für das Erstellen und Löschen von Replikaten sowie das Replizieren auf Anweisung des primären NameNode zuständig.

Der DataNode umfasst zwei Systemdateien: einer für Daten und einer weiteren für die Aufzeichnung von Blockmetadaten. Wenn eine Anwendung gestartet wird, findet ein Handshake zwischen dem primären und dem sekundären Daemon statt, um Namespace und Softwareversion zu überprüfen. Bei Diskrepanzen wird der DataNode automatisch heruntergefahren.

MapReduce

Hadoop MapReduce ist die zentrale Verarbeitungskomponente des Hadoop-Ökosystems. Diese Software stellt eine einfache Rahmenstruktur für das Schreiben von Anwendungen bereit, wenn es um den Umgang mit gewaltigen Mengen strukturierter und unstrukturierter Daten geht. Das wird vor allem durch die Vereinfachung der parallelen Verarbeitung von Daten auf verschiedenen Knoten erreicht, die sich auf handelsüblicher Hardware befinden.

MapReduce übernimmt die Auftragsplanung vom Client aus. Vom Benutzer angeforderte Aufgaben werden in unabhängige Tasks und Prozesse untergliedert. Anschließend werden diese MapReduce-Jobs auf Subtasks verteilt, die auf den verschiedenen Clustern und Knoten der handelsüblichen Server ausgeführt werden.

Diese Verarbeitung erfolgt in zwei Phasen: der Map- und der Reduce-Phase. In der Map-Phase wird das Dataset neu gruppiert. Dieses neue Dataset ist nach Schlüssel-Wert-Paaren gegliedert. In der nachfolgenden Reduce-Phase wird die Ausgabe mithilfe der InputFormat-Klasse entsprechend den Vorgaben des Programmierers umgewandelt.

Programmierer legen in MapReduce zwei Hauptfunktionen fest. Die Map-Funktion ist die Geschäftslogik für die Datenverarbeitung. Die Reduce-Funktion erstellt eine Zusammenfassung und Aggregation der Zwischendaten, die von der Map-Funktion ausgegeben werden, und generiert so die finale Ausgabe.

YARN

Einfach ausgedrückt ist Hadoop YARN eine neuere und deutlich verbesserte Version von MapReduce. Das ist jedoch nicht hundertprozentig korrekt. YARN wird auch für die Planung und Verarbeitung sowie für die Ausführung von Jobsequenzen verwendet. Allerdings ist YARN die Ressourcenverwaltungsschicht von Hadoop, wo alle Jobs als separate Java-Anwendungen für die Daten ausgeführt werden.

YARN fungiert als Betriebssystem des Frameworks und ermöglicht Dinge wie Batch-Verarbeitung und die Verarbeitung von F-Daten auf einer gemeinsamen Plattform. Dabei übertrifft YARN die Möglichkeiten von MapReduce deutlich und ermöglicht es Programmierern, interaktive und Streaming-Echtzeitanwendungen zu erstellen.

Mit YARN können Programmierer so viele Anwendungen wie nötig auf demselben Cluster ausführen. Es bietet eine sichere und stabile Grundlage für die operative Verwaltung und gemeinsame Nutzung von Systemressourcen für maximale Effizienz und Flexibilität.

Was sind Beispiele für beliebte Software im Bereich Hadoop?

Weitere beliebte Pakete, die nicht unbedingt zu den Kernmodulen von Hadoop gehören, aber häufig in Verbindung damit verwendet werden, sind neben anderen die folgenden:

Apache Hive ist eine Data-Warehouse-Software, die auf Hadoop ausgeführt wird und Benutzern die Arbeit mit Daten auf HDFS unter Verwendung einer SQL-ähnlichen Abfragesprache namens HiveQL ermöglicht.
Apache Impala ist die quelloffene, native Analysedatenbank für Apache Hadoop.
Apache Pig ist ein Tool, das in der Regel bei Hadoop als Abstraktion über MapReduce verwendet wird, um umfangreiche Datenmengen zu analysieren, die als Datenströme dargestellt werden. Pig ermöglicht Operationen wie das Erstellen von Joins sowie das Filtern, Sortieren und Laden der Daten.
Apache Zookeeper ist ein zentraler Dienst, der eine äußerst zuverlässige verteilte Verarbeitung ermöglicht.
Apache Sqoop ist ein Tool zur effizienten Übertragung von Bulk-Daten zwischen Apache Hadoop und strukturierten Datenspeichern wie etwa relationalen Datenbanken.
Apache Oozie ist ein System zur Planung von Workflows für die Verwaltung von Apache Hadoop-Jobs. Oozie-Workflow-Jobs sind DAGs (Directed Acyclical Graphs) von Aktionen.

Haben wir Ihr Interesse geweckt? Hier erfahren Sie mehr über das Hadoop-Ökosystem.

Wie man Hadoop für die Analyse verwendet

Abhängig von den Datenquellen und den Bedürfnissen des Unternehmens gibt es im Wesentlichen drei Möglichkeiten, das Hadoop-Framework für Analysen zu nutzen.

Bereitstellen in den Rechenzentren Ihres Unternehmens

Für Unternehmen, die über die erforderlichen Ressourcen verfügen, ist das meist die zeit- und kosteneffizienteste Option. Andernfalls jedoch kann die Bereitstellung der erforderlichen technischen Ausrüstung und des IT-Personals die finanziellen und personellen Ressourcen des Unternehmens übersteigen. Mit dieser Option haben Unternehmen mehr Kontrolle über Sicherheit und Schutz ihrer Daten.

Cloudeinsatz

Unternehmen, die eine deutlich schnellere Implementierung, niedrigere Anfangskosten und geringere Wartungsanforderungen wünschen, werden einen cloudbasierten Dienst bevorzugen. Bei einem Cloudanbieter werden Daten und Analysen auf Standardhardware in der Cloud ausgeführt. Solche Dienste rationalisieren die Verarbeitung von Big Data zu einem erschwinglichen Preis, haben aber auch einige Nachteile.

Zunächst einmal ist alles, was sich im öffentlichen Internet befindet, Freiwild für Hacker und Co. Zweitens können Ausfälle bei Internet- und Netzwerkanbietern Ihre geschäftlichen Systeme komplett lahm legen. Für Bestandsnutzer des Frameworks kann das bedeuten, dass sie z. B. von Hadoop zur Lakehouse-Architektur migrieren müssen.

On-Premises-Anbieter

Diejenigen, die sich für eine bessere Verfügbarkeit, mehr Datenschutz und zusätzliche Sicherheit entscheiden, finden alle drei Dinge bei einem Hadoop-Anbieter mit On-Premises-Systemen. Diese Anbieter bieten das Beste aus beiden Welten. Sie können den Prozess durch Bereitstellung der gesamten Ausrüstung, der Software und des Service rationalisieren. Da aber die Infrastruktur on-premises ist, profitieren Sie von allen Vorteilen, die große Unternehmen vom Betrieb eines eigenen Rechenzentrums haben.

Welche Vorteile bietet Hadoop?

Skalierbarkeit: Im Gegensatz zu herkömmlichen Systemen mit begrenzter Datenspeicherung ist Hadoop skalierbar, da es in einer verteilten Umgebung betrieben wird. Das ermöglichte es Datenarchitekten, Hadoop als Basis für frühe Data Lakes zu verwenden. Weitere Informationen zur Geschichte und Entwicklung von Data Lakes
Resilienz: Das Hadoop Distributed File System (HDFS) ist von Grund auf resilient. Daten, die auf einem beliebigen Knoten in einem Hadoop-Cluster gespeichert sind, werden auch auf andere Knoten des Clusters repliziert, um auf mögliche Hardware- oder Softwareausfälle vorbereitet zu sein. Dieses bewusst redundant ausgelegte Design gewährleistet Fehlertoleranz: Sollte ein Knoten ausfallen, ist im Cluster immer eine Sicherung der Daten vorhanden.
Flexibilität: Anders als bei relationalen Datenbankmanagementsystemen können Sie beim Arbeiten mit Hadoop Daten in jedem beliebigen Format – d. h. auch in halb- oder unstrukturierten Formaten – speichern. Mit Hadoop können Unternehmen problemlos auf neue Datenquellen zugreifen und Daten unterschiedlichster Art auswerten.

Welche Herausforderungen gehen mit Hadoop-Architekturen einher?

Komplexität: Hadoop ist ein Java-basiertes Low-Level-Framework, das für Endbenutzer übermäßig anspruchsvoll und schwierig zu handhaben sein kann. Außerdem können Hadoop-Architekturen umfangreiche Fachkenntnisse und Ressourcen für Einrichtung, Wartung und Upgrades erfordern.
Performance: Hadoop führt Berechnungen mit häufigen Lese- und Schreibvorgängen auf der Festplatte durch. Das ist zeitaufwändig und ineffizient im Vergleich zu Frameworks wie Apache Spark, die Daten möglichst im Speicher halten und verarbeiten wollen.
Langfristige Tragfähigkeit: Im Jahr 2019 erlebte die Welt einen massiven Umbruch im Hadoop-Bereich: Google, dessen bahnbrechendes Positionspapier zu MapReduce aus dem Jahr 2004 die Grundlage für die Entwicklung von Apache Hadoop bildete, beendete die Nutzung von MapReduce vollständig, wie Urs Hölzle, Google SVP of Technical Infrastructure, twitterte. Zudem erfolgten in der Welt von Hadoop einige aufsehenerregende Fusionen und Übernahmen. Mehr noch: 2020 stellte ein führender Hadoop-Anbieter seine Produktpalette um, da Hadoop mittlerweile „mehr Philosophie denn Technologie“ geworden sei. Schließlich war vor allem das Jahr 2021 von spannenden Veränderungen geprägt. So gab die Apache Software Foundation im April die Einstellung von zehn Projekten aus dem Hadoop-Ökosystem bekannt. Im Juni folgte die Ankündigung von Cloudera, sich von der Börse zurückzuziehen. Es bleibt abzuwarten, wie sich diese Entscheidung für die Nutzer von Hadoop auswirken wird. Diese zunehmenden Bedenken, gepaart mit der beschleunigten Notwendigkeit einer Digitalisierung, hat viele Unternehmen dazu gebracht, ihre Beziehung zu Hadoop neu zu bewerten.

Welche Unternehmen nutzen Hadoop?

Die Einführung von Hadoop ist im Begriff, zum Standard für erfolgreiche multinationale Unternehmen und Konzerne zu werden. Im Folgenden finden Sie eine Liste von Unternehmen, die Hadoop gegenwärtig einsetzen:

Adobe: Der Software- und Serviceanbieter nutzt Apache Hadoop und HBase für die Datenspeicherung und weitere Dienste.
eBay: Das Unternehmen verwendet das Framework für Suchmaschinenoptimierung und Recherche.
A9: Die Amazon-Tochter ist zuständig für Technologien für Suchmaschinen sowie suchmaschinenbezogene Werbung.
LinkedIn: Das Unternehmen betreibt eine der beliebtesten Websites für soziale und berufsbezogene Netzwerke und nutzt dazu zahlreiche Apache-Module wie Hadoop, Hive, Kafka, Avro und DataFu.
Spotify: Der schwedische Musikstreaming-Riese nutzte das Hadoop-Framework für Analysen und Berichterstellung sowie zum Erstellen von Inhalten und Hörempfehlungen.
Facebook: Der Social-Media-Gigant unterhält den größten Hadoop-Cluster der Welt – mit einem Dataset, das Berichten zufolge um ein halbes PB pro Tag wächst.
InMobi: Die Plattform für mobiles Marketing nutzt HDFS und Apache Pig/MRUnit für Aufgaben in den Bereichen Analytik, Data Science und Machine Learning.

Wie hoch sind die Kosten für Hadoop?

Das Hadoop-Framework selbst ist eine Open-Source-Anwendung auf Java-Basis. Das bedeutet, dass es im Gegensatz zu anderen Big-Data-Alternativen kostenlos ist. Die Kosten für die Standardsoftware hängen natürlich davon ab, in welchem Umfang Sie diese benötigen.

Bei dem Diensten zur Implementierung von Hadoop-Frameworks gibt es verschiedene Preisoptionen:

Pro Knoten (am gebräuchlichsten)
Pro Terabyte
Freemium-Produkt mit oder ohne abonnementpflichtigen technischen Support
All-in-One-Paketangebot mit sämtlicher Hardware und Software
Cloudbasierter Dienst mit individuell aufgeschlüsselten Preisoptionen (d. h., Sie zahlen das, was Sie benötigen, oder erwerben eine Prepaid-Lösung)

Mehr über Probleme bei Hadoop und über den Umstieg auf moderne Datenplattformen erfahren Sie in unserem Blogbeitrag.

Zusätzliche Ressourcen

Zurück zum Glossar