Delta Live Tables (DLT) ist ein deklaratives ETL-Framework für die Databricks Data Intelligence Platform, die Datenteams dabei unterstützt, Streaming- und Batch-ETL kostengünstig zu vereinfachen. Definieren Sie einfach die Transformationen, die auf Ihre Daten angewendet werden sollen, und überlassen Sie DLT-Pipelines die automatische Verwaltung der Aufgabenorchestrierung, des Cluster-Managements, des Monitorings, der Datenqualität und der Fehlerbehandlung.
Effiziente Datenaufnahme
Der Aufbau produktionsbereiter ETL-Pipelines im Lakehouse beginnt mit der Datenaufnahme. DLT ermöglicht eine einfache und effiziente Datenaufnahme für Ihr gesamtes Team – vom Data Engineer und Python-Entwickler bis hin zum Data Scientist und SQL-Analysten. Laden Sie mit DLT Daten aus jeder Datenquelle, die von Apache Spark™ in Databricks unterstützt wird.
- Verwenden Sie Auto Loader und Streaming-Tabellen, um Daten inkrementell in die Bronze-Ebene für DLT-Pipelines oder Databricks SQL-Abfragen zu übertragen.
- Datenaufnahme aus Cloud-Speichern, Message Buses und externen Systemen
- Verwenden Sie Change Data Capture (CDC) in DLT, um Tabellen basierend auf Änderungen in Quelldaten zu aktualisieren.
„Ich liebe Delta Live Tables, weil es über die Fähigkeiten von Auto Loader hinausgeht und das Lesen von Dateien noch einfacher macht. Ich war positiv überrascht, als wir in 45 Minuten eine Streaming-Pipeline einrichten konnten.“
– Kahveh Saramout, Senior Data Engineer bei Labelbox
Intelligente, kostengünstige Datentransformationen
Aus nur wenigen Codezeilen ermittelt DLT die effizienteste Methode zum Erstellen und Ausführen Ihrer Streaming- oder Batch-Datenpipelines und optimiert dabei das Preis-Leistungs-Verhältnis (fast das Vierfache der Databricks-Baseline) bei gleichzeitiger Minimierung der Komplexität.
- Implementieren Sie eine optimierte Medaillon-Architektur mit Streaming-Tabellen und materialisierten Ansichten in nur einem Augenblick.
- Optimieren Sie die Datenqualität für maximalen Geschäftswert mit Features wie Expectations.
- Aktualisieren Sie Pipelines im kontinuierlichen oder getriggerten Modus, um Ihren Anforderungen an die Datenaktualität gerecht zu werden.
„Mit Delta Live Tables ist es unserem Team gelungen, beim Verwalten der Daten [im Umfang von mehreren Billionen Datensätzen] viel Zeit und Aufwand einzusparen und unsere Kompetenzen im Bereich KI-Engineering fortlaufend zu verbessern. Databricks revolutioniert die ETL- und Data-Warehouse-Märkte.“
– Dan Jeavons, General Manager Data Science bei Shell
Einfache Einrichtung und Verwaltung von Pipelines
DLT- Pipelines vereinfachen die ETL-Entwicklung, indem sie praktisch die gesamte inhärente betriebliche Komplexität automatisieren. Mit DLT-Pipelines können sich Engineers auf die Bereitstellung hochwertiger Daten konzentrieren, anstatt Pipelines zu betreiben und zu verwalten. DLT verarbeitet folgende Aspekte automatisch:
- Aufgabenorchestrierung
- CI/CD und Versionskontrolle
- Automatische Skalierung der Compute-Infrastruktur für Kosteneinsparungen
- Monitoring über Metriken im Ereignisprotokoll
- Fehlerbehandlung und Fehlerbehebung
„Komplexe Architekturen wie dynamische Schemaverwaltung und zustandsorientierte/zustandslose Transformationen waren mit einer klassischen Multi-Cloud-Data-Warehouse-Architektur schwierig zu implementieren. Sowohl Data Scientists als auch Data Engineers können solche Änderungen jetzt mithilfe skalierbarer Delta Live Tables ohne Einstiegshürden durchführen.“
– Sai Ravuru, Senior Manager of Data Science and Analytics bei JetBlue
Stream-Verarbeitungs-Engine der nächsten Generation
Spark Structured Streaming ist die Kerntechnologie, die das Streaming von DLT-Pipelines ermöglicht und eine einheitliche API für die Batch- und Stream-Verarbeitung bietet. DLT-Pipelines nutzen die inhärente Latenz von weniger als einer Sekunde von Spark Structured Streaming und bieten ein rekordverdächtiges Preis-Leistungs-Verhältnis. Obwohl Sie mit Spark Structured Streaming manuell Ihre eigenen leistungsstarken Streaming-Pipelines erstellen können, bieten DLT-Pipelines aufgrund des automatisch verwalteten Betriebsaufwands möglicherweise eine schnellere Wertschöpfung, eine bessere fortlaufende Entwicklungsgeschwindigkeit und niedrigere Gesamtbetriebskosten.
„Wir mussten nichts tun, damit DLT skaliert. Wir geben dem System mehr Daten und es passt sich an. Ohne großen Aufwand haben wir die Gewissheit, dass es mit allem zurechtkommt, was wir von ihm verlangen.“
– Dr. Chris Inkpen, Global Solutions Architect bei Honeywell
DLT-Pipelines im Vergleich zum eigenverantwortlichen Erstellen von Spark Structured Streaming-Pipelines
Spark Structured Streaming pipelines | DLT pipelines | ||
---|---|---|---|
Ausführung auf der Databricks Lakehouse-Plattform | |||
Unterstützt durch die Spark Structured Streaming-Engine | |||
Integration mit Unity Catalog | |||
Orchestrierung mit Databricks Workflows | |||
Datenaufnahme aus Dutzenden von Quellen – vom Cloud-Speicher bis hin zu Message Buses | |||
Datenflussorchestrierung | Manuell | Automatisiert | |
Datenqualitätsprüfungen und -sicherung | Manuell | Automatisiert | |
Fehlerbehandlung und Fehlerbehebung | Manuell | Automatisiert | |
CI/CD und Versionskontrolle | Manuell | Automatisiert | |
Compute-Autoscaling | Grundlegend |
Einheitliche Data Governance und Datenspeicherung
Das Ausführen von DLT-Pipelines auf Databricks bedeutet, dass Sie von den grundlegenden Komponenten der auf der Lakehouse-Architektur aufsetzenden Data Intelligence Platform – Unity Catalog und Delta Lake – profitieren. Ihre Rohdaten werden mit Delta Lake optimiert, dem einzigen Open-Source-Speicher-Framework, das von Grund auf für Streaming- und Batch-Daten entwickelt wurde. Unity Catalog bietet Ihnen eine detaillierte, integrierte Steuerung all Ihrer Daten- und KI-Assets mit einem einheitlichen Modell, um Daten über verschiedene Clouds hinweg zu entdecken, darauf zuzugreifen und sie zu teilen. Unity Catalog bietet auch native Unterstützung für Delta Sharing, das branchenweit erste offene Protokoll für den einfachen und sicheren Datenaustausch mit anderen Unternehmen.
„Wir freuen uns unglaublich über die Integration von Delta Live Tables mit Unity Catalog. Diese Integration wird uns helfen, Data Governance für unsere DLT-Pipelines zu rationalisieren und zu automatisieren und unsere Sicherheitsanforderungen bei vertraulichen Daten zu erfüllen, während wir Millionen von Ereignissen in Echtzeit erfassen. Dies eröffnet eine Welt voller Potenzial und Verbesserungen für unsere Geschäftsanwendungsfälle im Zusammenhang mit Risikomodellierung und Betrugserkennung.“
– Yue Zhang, Staff Software Engineer bei Block