Direkt zum Hauptinhalt

pyspark

DATABRICKS KOSTENLOS TESTEN

Was ist PySpark?

Apache Spark ist in der Programmiersprache Scala geschrieben. PySpark soll vor allem die gemeinsame Nutzung von Apache Spark und Python unterstützen. Im Grunde genommen handelt es sich also um eine Python-API für Spark. Darüber hinaus hilft Ihnen PySpark, in Apache Spark und der Programmiersprache Python mit Resilient Distributed Datasets (RDDs) zu arbeiten. Dies wird durch die Nutzung der Py4J-Bibliothek erreicht.

PySpark-Logo

Py4J ist eine beliebte Bibliothek, die in PySpark integriert ist und mit deren Hilfe Python dynamisch mit JVM-Objekten kommunizieren kann. PySpark bietet eine ganze Reihe von Bibliotheken zum Schreiben effizienter Programme. Darüber hinaus gibt es verschiedene externe Bibliotheken, die ebenfalls kompatibel sind. Nachfolgend sind einige davon aufgeführt:

PySparkSQL

Eine PySpark-Bibliothek zur Anwendung SQL-ähnlicher Analysen für große Mengen strukturierter oder teilstrukturierter Daten. Wir können mit PySparkSQL auch SQL-Abfragen verwenden. Ferner kann es mit Apache Hive verbunden werden. HiveQL kann ebenfalls angewendet werden. PySparkSQL ist ein Wrapper für den PySpark-Kern. Mit PySparkSQL wurde der DataFrame eingeführt, eine tabellarische Darstellung strukturierter Daten, die der einer Tabelle eines relationalen Datenbankmanagementsystems (RDBMS) ähnelt.

mllib

MLlib ist ein Wrapper für PySpark und die Spark-Bibliothek für maschinelles Lernen. Diese Bibliothek verwendet das Datenparallelitätsverfahren zum Speichern von und Arbeiten mit Daten. Die von der MLlib-Bibliothek bereitgestellte ML-API ist recht einfach zu verwenden. MLlib unterstützt viele ML-Algorithmen für Klassifizierung, Regression, Clustererstellung, kollaborative Filterung, Dimensionalitätsreduzierung und zugrunde liegende Optimierungsprimitive.

GraphFrames

GraphFrames ist eine spezielle Graph-Verarbeitungsbibliothek, die eine Reihe von APIs für die effiziente Durchführung von Graphanalysen unter Verwendung des PySpark-Kerns und PySparkSQL bereitstellt. Sie ist für eine schnelle verteilte Datenverarbeitung optimiert. Vorteile der Verwendung von PySpark: • Python ist sehr einfach zu erlernen und zu implementieren. • Es bietet eine einfache, aber sehr komplette API. • Mit Python werden die Lesbarkeit von Code, die Wartung und die Vertrautheit deutlich verbessert. • Es bietet verschiedene Optionen zur Datenvisualisierung, die mit Scala oder Java schwierig ist.  

Zusätzliche Ressourcen

Zurück zum Glossar