Willkommen

Dieser Leitfaden zum Lernen im eigenen Tempo ist das Einführungstutorial für die Nutzung von Apache Spark mit Databricks. In den folgenden Modulen lernen Sie die Grundlagen der Erstellung von Spark-Jobs, wie man Daten lädt und wie man mit Daten arbeitet. Sie erhalten auch eine Einführung in die Ausführung von Algorithmen für Maschinelles Lernen und die Arbeit mit Streaming-Daten. Databricks bietet Ihnen die Möglichkeit, sofort Spark-Abfragen zu schreiben, damit Sie sich auf Ihre Datenprobleme konzentrieren können.

Navigation in diesem Tutorial für Apache Sparks

Fahren Sie mit der Maus über die Navigationsleiste oben, um die sechs Phasen für die ersten Schritte mit Apache Spark auf Databricks zu sehen. Dieser Leitfaden bietet zunächst einen schnellen Einstieg in die Verwendung von Open-Source-Apache Spark. Sie nutzen dieses Wissen dann, um zu lernen, wie man Spark DataFrames mit Spark-SQL verwendet. Wir erläutern auch, wie man Datensätze verwendet und wie DataFrames und Datensätze nun vereinheitlicht werden. Dieser Leitfaden enthält auch eine kurze Einführung in Maschinelles Lernen und Streaming, damit Sie diese Lösungen einfach auf Ihre Datenprobleme anwenden können. Jedes dieser Module bezieht sich auf einen eigenständigen Anwendungsbereich – einschließlich IoT und Immobilienverkauf – mit Notebooks und Datensätzen, sodass Sie nach Belieben zu einem Thema springen können.

Einführung in Apache Spark

spark-logo-trademark

Apache Spark ist eine leistungsstarke Open-Source-Verarbeitungsengine, die auf Geschwindigkeit, Anwenderfreundlichkeit und ausgefeilte Analysen ausgerichtet ist.

Spark SQL + DataFrames

Strukturierte Daten: Spark SQL

Data Scientists, Data Analysts und Nutzer geschäftlicher Daten verlassen sich für Datenuntersuchungen auf interaktive SQL-Abfragen. Spark SQL ist ein Spark-Modul zur Verarbeitung von strukturierten Daten. Es bietet eine Abstraktion in der Programmierung namens DataFrames und kann auch als verteilte SQL-Abfrage-Engine verwendet werden. So können unveränderte Hadoop Hive-Abfragen auf vorhandenen Bereitstellungen und Daten bis zu 100-mal schneller ausgeführt werden. Außerdem ist sie gut in das übrige Spark-Ökosystem integriert (so kann sie die Verarbeitung von SQL-Abfragen in Machine Learning integrieren).

Streaming

Streaming-Analysen: Spark Streaming

Viele Anwendungen müssen nicht nur Batch-Daten verarbeiten und analysieren können, sondern auch Streaming-Daten – in Echtzeit. Spark Streaming läuft auf Spark und ermöglicht leistungsstarke interaktive und analytische Anwendungen, sowohl für Streaming-Daten als auch für historische Daten. Dabei werden die anwenderfreundlichen und fehlertoleranten Eigenschaften von Spark beibehalten. Die Lösung lässt sich leicht in eine Vielzahl von beliebten Datenquellen integrieren, wie HDFS, Flume, Kafka oder Twitter.

MLlib Machine Learning

Machine Learning: MLlib

Machine Learning ist ein entscheidender Faktor bei der Nutzbarmachung von Big Data zur Erzeugung prozessfähiger Erkenntnisse. MLlib basiert auf Spark und ist eine skalierbare Machine Learning-Bibliothek, die neben qualitativ hochwertigen Algorithmen (zum Beispiel mehrere Durchläufe, um eine höhere Genauigkeit zu erzielen) auch eine erhebliche Geschwindigkeit bietet (bis zu 100-mal schneller als MapReduce). Die Bibliothek kann in Java, Scala und Python als Teil von Spark-Anwendungen genutzt werden, sodass sie in komplette Workflows eingefügt werden kann.

GraphX Diagramm-berechnung

Diagrammberechnung: GraphX

GraphX ist eine Spark-basierte Engine zur Diagrammberechnung, die ihren Anwendern die Möglichkeit bietet, interaktiv strukturierte Diagrammdaten in großem Umfang zu erstellen, umzuwandeln und auszuwerten. Die Engine enthält eine Bibliothek mit häufig verwendeten Algorithmen.

Spark Core-API

Allgemeine Ausführung: Spark Core

Spark Core ist die der Spark-Plattform zugrunde liegende Engine, auf der alle anderen Funktionen aufbauen. Die Engine bietet In-Memory-Berechnungsmöglichkeiten für mehr Geschwindigkeit, ein allgemeines Ausführungsmodell zur Unterstützung einer Vielzahl unterschiedlicher Anwendungen, sowie Java-, Scala-, und Python-APIs um die Entwicklung zu vereinfachen.

R
SQL
Python
Scala
Java

„Bei Databricks arbeiten wir mit Hochdruck daran, die Nutzung und Ausführung von Spark einfacher als je zuvor zu gestalten. Dafür konzentrieren wir unsere Bemühungen sowohl auf den zugrundeliegenden Code von Spark, als auch auf das dazugehörige Support-Material. Unsere ganze Arbeit auf Spark kommt der Open-Source-Community zugute und wird direkt für Apache zur Verfügung gestellt.“

Matei Zaharia, VP, Apache Spark,
Mitgründer & Chief Technologist, Databricks

Für weitere Informationen über Spark können Sie auch diese Artikel lesen:

Databricks holen

Databricks is a Unified Analytics Platform on top of Apache Spark that accelerates innovation by unifying data science, engineering and business. With our fully managed Spark clusters in the cloud, you can easily provision clusters with just a few clicks. Databricks incorporates an integrated workspace for exploration and visualization so users can learn, work, and collaborate in a single, easy to use environment. You can easily schedule any existing notebook or locally developed Spark code to go from prototype to production without re-engineering.

Jetzt registrieren

Darüber hinaus ist Folgendes in Databricks enthalten:

  • Unser preisgekrönter Onlinekurs (MOOC - Massive Open Online Course) „Einführung in Big Data mit Apache Spark“, für den bisher mehr als 76.000 Teilnehmer eingeschrieben sind!
  • MOOCs, einschließlich Machine Learning mit Apache Spark
  • Beispiele für Analyse-Pipelines in R und Scala

Find all of our available courses here at https://academy.databricks.com

Weitere Ressourcen

Spark: Better with Delta Lake

This series of tech talk tutorials takes you through the technology foundation of Delta Lake (Apache Spark) and the capabilities Delta Lake adds to it to power cloud data lakes.

Jetzt ansehen