Delta Lake

Datenzuverlässigkeit und Performance für Ihre Data Lakes

Delta Lake bietet Zuverlässigkeit, Leistung und Lebenszyklusmanagement für Data Lakes. Schluss mit fehlerhafter Datenaufnahme, Schwierigkeiten beim Löschen von Daten zur Einhaltung der Vorschriften oder bei der Änderung von Daten zur Erfassung von Änderungsdaten. Erhöhen Sie die Geschwindigkeit, mit der hochwertige Daten in Ihren Data Lake gelangen können, und die Geschwindigkeit, mit der Teams diese Daten nutzen können, mit einem sicheren und skalierbaren Cloud-Service.

Vorteile

 

 

OFFEN & ERWEITERBAR

Delta Lake ist ein Open-Source-Projekt der Linux Foundation. Die Daten werden im offenenParquet-Format von Apache gespeichert, sodass Daten von jedem kompatiblen Lesegerät gelesen werden können. Die APIs sind offen und kompatibel mit Apache Spark™.
 

DATENZUVERLÄSSIGKEIT

In Data Lakes treten oft Probleme mit der Datenqualität auf, da die Kontrolle über die aufgenommenen Daten fehlt. Delta Lake fügt den Data Lakes eine Speicherebene hinzu, um die Datenqualität zu verwalten und sicherzustellen, dass Data Lakes nur qualitativ hochwertige Daten für Verbraucher enthalten.
 

VERWALTUNG DES DATENLEBENSZYKLUS

Bearbeiten Sie sich ändernde Datensätze und sich entwickelnde Schemata, wenn sich die Geschäftsanforderungen ändern. Und gehen Sie über die Lambda-Architektur hinaus, indem Sie wirklich einheitliches Streaming und Batch-Verarbeitung mit derselben Engine, denselben APIs und demselben Code durchführen.

Funktionen

 

ACID-Transaktionen: Mehrere Daten-Pipelines können Daten gleichzeitig in einem Data Lake lesen und schreiben. ACID-Transaktionen gewährleisten Datenintegrität mit Serialisierbarkeit und damit den höchsten Isolationsgrad. Hier erfahren Sie mehr: Umfassende Infos über Delta Lake: Transaktionsprotokolle verstehen.
 
Aktualisierungen und Löschvorgänge: Delta Lake bietet DML-APIs zum Zusammenführen, Aktualisieren und Löschen von Datensätzen. Auf diese Weise können Sie die DSGVO/CCPA-Richtlinien problemlos einhalten und die Erfassung von Änderungsdaten vereinfachen.
 
Durchsetzung des Schemas: Geben Sie Ihr Data-Lake-Schema an und setzen Sie es durch. Stellen Sie dabei sicher, dass die Datentypen korrekt sind und die erforderlichen Spalten vorhanden sind, und verhindern Sie, dass fehlerhafte Daten zu Datenverlusten führen. Weitere Informationen erhalten Sie hier: Umfassende Infos über Delta Lake: Schema-Enforcement und -Entwicklung
 
Zeitreisen (Datenversionierung): Daten-Schnappschüsse ermöglichen es Entwicklern, auf frühere Datenversionen zuzugreifen und diese wiederherzustellen, um Datenänderungen zu überprüfen, fehlerhafte Aktualisierungen rückgängig zu machen oder Experimente zu reproduzieren. Hier erfahren Sie mehr: Einführung von Delta Lake Zeitreisen für umfangreiche Data Lakes
 
Skalierbarer Umgang mit Metadaten: Delta Lake behandelt Metadaten genauso wie Daten und nutzt die verteilte Rechenleistung von Spark. Dies ermöglicht Tabellen im Petabyte-Bereich mit Milliarden von Partitionen und Dateien.
Offenes Format: Alle Daten in Delta Lake werden im Apache-Parquet-Format gespeichert, sodass Delta Lake die für Parquet typischen effizienten Komprimierungs- und Codierungsschemata nutzen kann.
 
Einheitliche Batch- und Streaming-Datenquellen und -senken: Eine Tabelle in Delta Lake ist sowohl eine Batch-Tabelle als auch eine Streaming-Quelle und -senke. Die Aufnahme von Streaming-Daten, das Auffüllen mit historischen Batch-Daten und interaktive Abfragen laufen hier zusammen.
 
Entwicklung eines Schemas: Big Data verändert sich ständig. Mit Delta Lake können Sie Änderungen an einem Tabellenschema vornehmen, die automatisch angewendet werden können, ohne dass umständliches DDL erforderlich ist.
 
Prüfhistorie: Im Delta Lake-Transaktionsprotokoll werden Details zu jeder an den Daten vorgenommenen Änderung aufgezeichnet und ein vollständiges Änderungsprotokoll für die Einhaltung, Prüfung und Reproduktion bereitgestellt.
 
100 % kompatibel mit Apache Spark API: Entwickler können Delta Lake mit ihren vorhandenen Daten-Pipelines nutzen. Nur minimale Änderungen sind nötig. Denn die Lösung ist vollständig kompatibel mit Apache Spark, der am häufigsten genutzten Engine zur Verarbeitung für Big Data.
 
Sehen Sie unsere Produktneuigkeiten von Azure Databricks und AWS, um mehr über unsere neuesten Funktionen zu erfahren.

Anstelle von Parquet ...

dataframe
   .write
   .format("parquet")
   .save("/data")

... sagen Sie einfach Delta

dataframe
   .write
   .format("delta")
   .save("/data")

Netzwerk zur Datenaufnahme

Native Konnektoren zum einfachen, schnellen und zuverlässigen Einlesen von Daten in Delta Lake aus all Ihren Anwendungen, Datenbanken und Dateispeichern

Wie es funktioniert

Delta Lake – zugrunde liegende Struktur

Von Michael Armbrust, dem Schöpfer von Delta Lake

Delta Lake ist eine Open-Source-Speicherebene, die sich über dem vorhandenen Data-Lake-Dateispeicher befindet, z. B. AWS S3, Azure Data Lake-Speicher oder HDFS. Zum Speichern Ihrer Daten werden versionierte Apache-Parquet™-Dateien verwendet. Delta Lake speichert auch ein Transaktionsprotokoll, um alle Festschreibungen zu verfolgen, die vorgenommen wurden, um erweiterte Funktionen wie ACID-Transaktionen, Datenversionierung und Auditverlauf bereitzustellen. Um auf die Daten zuzugreifen, können Sie die offenen Spark-APIs, einen der verschiedenen Konnektoren oder einen Parquet-Reader verwenden, um die Dateien direkt zu lesen.