ACID-Transaktionen in Data Lake Tech Talks: Erste Schritte mit Delta Lake

Veröffentlicht: November 23, 2020

Lösungen4 min Lesezeit

Erhalten Sie eine frühe Vorschau auf das neue E-Book von O'Reilly für die Schritt-für-Schritt-Anleitung, die Sie für den Einstieg in Delta Lake benötigen.

Im Rahmen unseres Data + AI Online Meetups haben wir Themen behandelt, die von Genomik (mit Gästen von Regeneron) über Machine Learning-Pipelines und GPU-beschleunigtes ML bis hin zur Tableau-Performance-Optimierung reichten. Ein zentrales Themengebiet war die Erkundung des Lakehouse.

Der Aufstieg des Lakehouse-Architekturmusters basiert auf technischen Innovationen, die es dem Data Lake ermöglichen, ACID-Transaktionen und andere Features traditioneller Data-Warehouse-Workloads zu unterstützen.

Die Tech-Talk-Reihe Getting Started with Delta Lake führt Sie durch die technologischen Grundlagen von Delta Lake (Apache Spark™), den Aufbau hochskalierbarer Datenpipelines, die Bewältigung kombinierter Streaming- und Batch-Workloads und die Nutzung von Delta Lake und MLflow für Data Science. Außerdem werfen Sie gemeinsam mit den Entwicklern von Delta Lake einen Blick hinter die Kulissen, um die Ursprünge des Projekts kennenzulernen.

Verbessern Sie Apache Spark™ mit Delta Lake

Apache Spark ist das führende Verarbeitungs-Framework für Big Data. Delta Lake erhöht die Zuverlässigkeit von Spark, damit Ihre Analytics- und Machine-Learning-Initiativen einfachen Zugriff auf hochwertige, zuverlässige Daten haben, die in kostengünstigen Cloud-Objektspeichern wie AWS S3, Azure Storage und Google Cloud Storage gespeichert sind. In dieser Session lernen Sie, wie Sie mit Delta Lake die Zuverlässigkeit Ihrer Data Lakes erhöhen.

Daten-Engineering-Pipelines vereinfachen und skalieren

Eine gängige Architektur von Daten-Engineering-Pipelines verwendet Tabellen, die verschiedenen Qualitätsstufen entsprechen und den Daten schrittweise Struktur hinzufügen: Data Ingestion („Bronze“-Tabellen), Transformation/Feature-Engineering („Silver“-Tabellen) und Aggregattabellen/machine learning-Training oder -Vorhersage („Gold“-Tabellen). Zusammenfassend bezeichnen wir diese Tabellen als „Multi-Hop“-Architektur. Sie ermöglicht es Daten-Engineers, eine Pipeline zu erstellen, die mit Rohdaten als „Single Source of Truth“ beginnt, von der alles ausgeht. In dieser Session erfahren Sie mehr über die Architektur von Daten-Engineering-Pipelines, Szenarien und Best Practices für Daten-Engineering-Pipelines, wie Delta Lake Daten-Engineering-Pipelines verbessert und wie einfach die Einführung von Delta Lake für die Erstellung Ihrer Daten-Engineering-Pipelines ist.

Über Lambda hinaus: Einführung in die Delta-Architektur

Die Lambda-Architektur ist eine beliebte Technik, bei der Datensätze parallel von einem Batch-System und einem Streaming-System verarbeitet werden. Die Ergebnisse werden dann zur Abfragezeit kombiniert, um eine vollständige Antwort zu liefern. Seit der Einführung von Delta Lake stellen wir fest, dass viele unserer Kunden ein einfaches kontinuierliches Datenflussmodell übernehmen, um Daten bei ihrem Eintreffen zu verarbeiten. Wir nennen diese Architektur die „Delta-Architektur“. In dieser Session behandeln wir die größten Engpässe bei der Einführung eines kontinuierlichen Datenflussmodells und wie die Delta-Architektur diese Probleme löst.

Daten für Data Science mit Delta Lake und MLflow vorbereiten

Bei der Planung von Data-Science-Initiativen muss man den gesamten Bereich der Datenanalyse ganzheitlich betrachten. Daten-Engineering ist ein Keyer Wegbereiter für Data Science, der dabei hilft, zuverlässige und hochwertige Daten zeitnah bereitzustellen. In dieser Session erfahren Sie mehr über den Data-Science-Lebenszyklus, die wichtigsten Grundsätze des modernen Daten-Engineerings, wie Delta Lake dabei helfen kann, zuverlässige Daten für die Analyse vorzubereiten, wie einfach die Einführung von Delta Lake für Ihren Data Lake ist und wie Sie Delta Lake in Ihre Dateninfrastruktur integrieren können, um Data Science zu ermöglichen.

Hinter den Kulissen: Die Entstehung von Delta Lake

Developer Advocate Denny Lee interviewt Burak Yavuz, Software Engineer bei Databricks, um mehr über den Entscheidungsprozess des Delta Lake-Teams zu erfahren und warum sie die Architektur so entworfen, konzipiert und implementiert haben, wie sie heute ist. In dieser Session erfahren Sie, mit welchen technischen Herausforderungen das Team konfrontiert war, wie diese Herausforderungen gelöst wurden und was ihre Pläne für die Zukunft sind.

Erste Schritte

Beginnen Sie noch heute damit, Ihren Delta Lake zu füllen, indem Sie sich diese komplette Serie ansehen.

Was kommt als Nächstes?

Wenn Sie Ihr Wissen über Delta Lake erweitern möchten, sehen Sie sich unsere Tech-Talk-Reihe „Diving into Delta Lake“ an. Unter der Leitung des Delta-Lake-Engineering-Teams, darunter Burak Yavuz, Andrea Neumann, Tathagata „TD“ Das und Developer Advocate Denny Lee, lernen Sie die interne Implementierung von Delta Lake kennen.

Wenn Sie über zukünftige Online-Meetups informiert werden möchten, treten Sie unserem Data + AI Online Meetup auf meetup.com bei.