Apache Spark™

Apache Spark ist eine blitzschnelle Unified-Analytics-Engine, mit der die Arbeit mit Big Data und Machine Learning wesentlich erleichtert wird. Das Framework der Engine wurde 2009 an der UC Berkeley entwickelt.

Das größte Open-Source-Projekt in der Geschichte der Datenverarbeitung

Seit ihrer Freigabe hat die Unified-Analytics-Engine Apache Spark Einzug in Unternehmen der unterschiedlichsten Branchen gehalten. Online-Riesen, wie Netflix, Yahoo und eBay, haben Spark in massivem Umfang eingesetzt. Gemeinschaftlich haben sie bereits mehrere Petabyte an Daten auf Clustern mit mehr als 8.000 Knoten verarbeitet. Rasch hat sich das Projekt zur größten Open-Source-Community im Big Data-Bereich entwickelt – mit über 1.000 aktiv beitragenden Entwicklern aus mehr als 250 Unternehmen und Organisationen.

Dasselbe Team, dass das Forschungsprojekt ursprünglich ins Leben gerufen hatte, gründete 2013 Databricks.

Apache Spark ist zu 100 Prozent Open Source. Gehostet wird es bei der anbieterunabhängigen Apache Software Foundation. Databricks setzt sich für die Aufrechterhaltung dieses offenen Entwicklungsmodells ein. Gemeinsam mit der Spark-Community leistet Databricks deshalb auch weiterhin einen großen Beitrag zum Apache Spark-Projekt.

Video ansehen

Was ist Apache Spark? – Vorteile von Apache Spark

Geschwindigkeit

Spark wurde entwickelt, um eine möglichst gute Performance gewährleisten zu können. Selbst riesige Datenmengen können mit der Engine 100-mal schneller verarbeitet werden, als mit Hadoop. Dafür sorgen In-Memory-Datenverarbeitung und weitere Optimierungen. Spark ist auch schnell, wenn die Daten auf Festplatten gespeichert werden. Derzeit hält es den Weltrekord im Sortieren von umfangreichen Datenmengen auf Festplatten.

Anwenderfreundlichkeit

Spark besitzt anwenderfreundliche APIs für den Betrieb umfangreicher Datenmengen. Hierzu zählt auch eine Sammlung aus über 100 Operatoren für die Umwandlung von Daten und bekannten Data Frame-APIs zur Bearbeitung von semi-strukturierten Daten.

Eine einheitliche Engine

Spark wird mit vielen höherrangigen Bibliotheken geliefert, darunter Support für SQL-Abfragen, Streaming-Daten, Machine Learning und Diagrammverarbeitung. Diese Standardbibliotheken steigern die Produktivität der Entwickler und können nahtlos kombiniert werden, um komplexe Workflows zu erstellen.

Testen Sie Apache Spark kostenlos in der Databricks-Cloud

Die Databricks Unified Analytics-Plattform bietet die 5-fache Performance der Open Source-Variante von Spark, gemeinschaftlich nutzbare Notebooks, integrierte Workflows und Sicherheit auf Enterprise-Niveau – dies alles, auf einer vollständig verwalteten Cloud-Plattform.

Databricks testen

Das Apache Spark-Projekt (Open Source) kann hier heruntergeladen werden.