Direkt zum Hauptinhalt

Spark SQL

DATABRICKS KOSTENLOS TESTEN

Data Scientists, Data Analysts und ganz allgemein BI-Nutzer greifen bei Datenuntersuchungen häufig auf interaktive SQL-Abfragen zurück. Spark SQL ist ein Spark-Modul zur Verarbeitung strukturierter Daten. Es stellt eine Programmierabstraktion namens DataFrames bereit und kann auch als verteilte SQL-Abfrage-Engine verwendet werden. So können Hadoop Hive-Abfragen in unveränderter Form auf vorhandenen Implementierungen und für Bestandsdaten bis zu 100-mal schneller ausgeführt werden. Außerdem ist die Abstraktion sauber in das weitere Spark-Ökosystem integriert und kann beispielsweise maschinelles Lernen in die Verarbeitung von SQL-Abfragen einbetten.

Was ist Apache Spark SQL?

Spark SQL ergänzt Spark mit native SQL-Unterstützung und optimiert den Abfrageprozess für Daten, die wahlweise in RDDs (Spark Distributed Datasets) oder externen Quellen gespeichert sind. Mit Spark SQL werden die Grenzen zwischen RDDs und relationalen Tabellen aufgehoben. Die Vereinheitlichung dieser leistungsstarken Abstraktionen erleichtert Entwicklern das Kombinieren von SQL-Anweisungen zum Abfragen externer Daten mit komplexen Analysefunktionen – und das alles in einer einzigen Anwendung. Konkret ermöglicht Spark SQL Entwicklern Folgendes:

  • Importieren relationaler Daten aus Parquet-Dateien und Hive-Tabellen
  • Ausführen von SQL-Abfragen im Entwicklerkontext für importierte Daten wie auch vorhandene RDDs
  • Einfaches Schreiben von RDDs in Hive-Tabellen oder Parquet-Dateien

Spark SQL umfasst außerdem einen kostenbasierten Optimierer, Speicher auf Spaltenbasis und die Möglichkeit zur Codegenerierung, um Abfragen zu beschleunigen. Gleichzeitig ist es auf Tausende von Knoten und mehrstündige Abfragen skalierbar – dank der Spark-Engine, die für laufende Abfragen vollständige Fehlertoleranz bietet, ohne dass Sie sich um die Verwendung einer anderen Engine für Verlaufsdaten kümmern müssten.

Zusätzliche Ressourcen

Zurück zum Glossar