Hosted Spark
Was ist Hosted Spark?
Apache Spark ist ein schnelles und universelles Cluster-Computing-System für Big Data, das auf Geschwindigkeit, Benutzerfreundlichkeit und fortschrittliche Analysen ausgelegt ist und ursprünglich 2009 an der University of California, Berkeley entwickelt wurde. Spark implementiert hochwertige APIs für Scala, Java, Python und R sowie eine optimierte Engine, die allgemeine Berechnungsgraphen für die Datenanalyse unterstützt. Außerdem werden verschiedene weitere Tools wie Spark SQL für SQL und DataFrames, MLlib für maschinelles Lernen, GraphX für die Graphverarbeitung und Spark Streaming für die Stream-Verarbeitung unterstützt.
Spark bietet zwei Modi für die Datenexploration:
- Interaktiv
- Batch
Zur Vereinfachung der Interaktion mit den Endbenutzern ist Spark auch auf einer einheitlichen gehosteten Datenplattform für Unternehmen erhältlich.Da es keinen direkten Zugriff auf Spark-Ressourcen durch Remote-Anwendungen gibt, mussten Benutzer bislang einen längeren Weg bis zur Produktion in Kauf nehmen. Zur Überwindung dieses Hindernisses wurden Dienste entwickelt, mit denen Remote-Anwendungen über eine REST-API ortsunabhängig eine effiziente Verbindung mit einem Spark-Cluster herstellen können. Diese Schnittstellen unterstützen die Ausführung von Codefragmenten oder Programmen in einem Spark-Kontext, der lokal oder in Apache Hadoop YARN läuft. Hosted Spark-Schnittstellen haben sich als gebrauchsfertige Lösungen bewährt, da sie die Interaktion zwischen Spark und Anwendungsservern erleichtern und die für interaktive Web- und Mobilanwendungen erforderliche Architektur optimieren.
Funktionen von Hosted Spark-Diensten:
- Interaktive Anbindung an Scala, Python und R
- Batch-Verarbeitung in Scala, Java und Python
- Gleichzeitige Nutzung desselben Servers durch mehrere Benutzer
- Ortsunabhängige Übermittlung von Jobs über REST
- Keine Codeänderungen an Ihren Programmen erforderlich
Unternehmen können die vormaligen Engpässe, die sie an einer Operationalisierung von Spark gehindert haben, nun problemlos überwinden und stattdessen die von Big Data versprochene Wertschöpfung in Angriff nehmen.