Databricks Runtime

Eine hochoptimierte Apache Spark ™ Engine, die auf einer Infrastruktur mit automatischer Skalierung ausgeführt wird

Databricks Runtime ist eine Engine zur Datenverarbeitung, die auf einer hochoptimierten Version von Apache Spark basiert und eine bis zu 50-fache Leistungssteigerung ermöglicht. Es läuft auf einer autoskalierenden Infrastruktur für einfache Selbstbedienung ohne DevOps und bietet gleichzeitig Sicherheits- und Verwaltungskontrollen, die für die Produktion erforderlich sind. Erstellen Sie Pipelines, planen Sie Aufträge und trainieren Sie Modelle schneller als bisher.

Vorteile

Performance

Databricks Runtime wurde von den Entwicklern von Apache Spark hochgradig optimiert. Die deutliche Leistungssteigerung ermöglicht neue Anwendungsfälle, die bisher für die Datenverarbeitung und Pipelines nicht realisierbar waren, und verbessert die Produktivität der Datenteams.
 

KOSTENEFFIZIENT

Die Laufzeitumgebung nutzt die automatische Skalierung von Computing und Speicher zur Verwaltung der Infrastrukturkosten. Cluster werden intelligent gestartet und beendet, und das große Preis-Leistungsverhältnis reduziert die Infrastrukturkosten.
 

EINFACHHEIT

Databricks hat Spark mit einer Reihe integrierter Services für die Automatisierung und Verwaltung ausgestattet, um es Datenteams zu erleichtern, Pipelines zu erstellen und zu verwalten, und gleichzeitig den IT-Teams die administrative Kontrolle zu übertragen.

Funktionen

 

Caching: Kopien von Remote-Dateien werden im lokalen Speicher mit einem schnellen Zwischendatenformat zwischengespeichert, was zu besseren aufeinanderfolgenden Lesegeschwindigkeiten für die gleichen Daten führt.
 
Clustering nach Z-Order: Die Zusammenfassung verwandter Informationen in denselben Datensätzen reduziert die zu lesende Datenmenge drastisch und führt zu schnelleren Antworten auf Anfragen.
 
Verbinden von Optimierungen: Range-Join- und Skew-Join-Optimierungen durch verschiedene Abfragemuster und Skew-Hinweise ermöglichen signifikante Leistungssteigerungen.
 
Überspringen von Daten: Zur Abfragezeit werden statistische Informationen über die beim Schreiben der Daten automatisch erfassten Minimal- und Maximalwerte verwendet, um schnellere Abfragen zu ermöglichen.
 
Benutzerfreundliches Cluster-Management: Die benutzerfreundliche Oberfläche vereinfacht die Erstellung, den Neustart und die Beendigung von Clustern und bietet eine bessere Sichtbarkeit Ihrer Cluster für eine einfachere Verwaltung und Kostenkontrolle.
 
Hochverfügbarkeit: Der Databricks Cluster Manager führt einen transparenten Neustart aller gesperrten oder abgestürzten Worker-Instanzen durch und stellt so sicher, dass Ihr Dienst immer verfügbar ist, ohne dass Sie ihn selbst verwalten müssen.
 

Elastische On-Demand-Cluster: Erstellen Sie On-Demand-Cluster in wenigen Minuten mit wenigen Klicks und skalieren Sie sie entsprechend Ihren aktuellen Anforderungen nach oben oder unten. Konfigurieren oder verwenden Sie Ressourcen neu, wenn sich die Anforderungen für Ihr Team oder Ihren Service ändern.
 
Abwärtskompatibilität mit automatischen Upgrades: Wählen Sie die Version von Spark aus, die Sie verwenden möchten, um sicherzustellen, dass Legacy-Jobs weiterhin mit früheren Versionen ausgeführt werden können, während die neueste Version von Spark problemlos verfügbar ist.

Flexibler Zeitplaner: Führen Sie Aufträge für Produktions-Pipelines nach einem festgelegten Zeitplan in Minuten- bis hin zu Monatsintervallen in verschiedenen Zeitzonen aus, einschließlich Cron-Syntax- und Neustart-Richtlinien.

Benachrichtigungen: Benachrichtigen Sie eine Gruppe von Benutzern, wenn ein Produktionsjob startet, fehlschlägt und / oder ohne menschliches Eingreifen abgeschlossen wird.

Flexible Auftragstypen: Führen Sie verschiedene Auftragstypen aus, um Ihre unterschiedlichen Anwendungsfälle zu erfüllen, einschließlich Notebooks, Spark-JARs, benutzerdefinierter Spark-Bibliotheken und -Anwendungen.

Optimierte Datenquellen: Zentrales Repository für Ihre Spark-Datenquellen mit umfassender Unterstützung, darunter SQL, NoSQL, Columnar, Document, UDFs, Dateispeicher, Dateiformate, Suchmaschinen und mehr.

Wie es funktioniert

 

Databricks Runtime

Databricks Runtime implementiert die offenen Apache Spark-APIs mit einer hochoptimierten Ausführungsengine, die im Vergleich zu standardmäßigen Open-Source-Apache Spark auf anderen Cloud Spark-Plattformen erhebliche Leistungssteigerungen bietet. Diese Core-Engine wird dann mit zusätzlichen Services für Entwicklerproduktivität und Unternehmensführung ausgestattet.

Ressourcen