Data Engineering auf Databricks

Im Handumdrehen zu aktuellen und belastbaren Daten

Data Engineering auf Databricks

Hintergrundbild

Die Databricks Lakehouse-Plattform bietet eine konsistente Data-Engineering-Lösung – mit Erfassung, Verarbeitung und Zeitplanung –, die das komplexe Erstellen und Pflegen von Pipelines und das direkte Ausführen von ETL-Workloads für einen Data Lake automatisiert. So können Data Engineers den Schwerpunkt auf Qualität und Belastbarkeit ihrer Daten legen, um wertvolle Erkenntnisse zu gewinnen.

Datenerfassung optimieren

Datenerfassung im Lakehouse optimieren

Verarbeiten Sie neue Dateien, sobald sie in Ihrem Cloud-Speicher abgelegt werden, inkrementell in terminierten oder auch fortlaufenden Jobs, ohne Statusinformationen verwalten zu müssen. Neue Dateien behalten Sie effizient im Blick, ohne sie in einem Verzeichnis auflisten zu müssen – und diese Funktionalität skaliert sogar auf Milliarden von Dateien. Databricks erschließt das Schema automatisch aus den Quelldaten und entwickelt es nach Bedarf fort, wenn die Daten in das Delta Lake-Lakehouse geladen werden.

Datentransformation und -verarbeitung automatisieren

Nach der Erfassung der Daten im Lakehouse müssen Data Engineers Rohdaten in strukturierte Daten transformieren, die für Analysen, Data Science oder Machine Learning eingesetzt werden können. Mit Delta Live Tables (DLT) wird die Datentransformation zum Kinderspiel: Noch nie war es so einfach, Daten-Pipelines für aktuelle und hochwertige Daten in Delta Lake zu erstellen und zu verwalten. DLT unterstützt Data-Engineering-Teams beim Erstellen des Lakehouse-Unterbaus. Die Lösung vereinfacht die ETL-Entwicklung und -Verwaltung durch deklarative Pipeline-Entwicklung, höhere Datenzuverlässigkeit und einen Produktionsbetrieb im Cloud-Maßstab.

Datentransformation automatisieren

Für Zuverlässigkeit und Qualität entwickeln

Zuverlässigkeit und Qualität Ihrer Pipelines steigern

Datenqualität und -integrität sind wesentlich, um die Datenkonsistenz im Lakehouse insgesamt zu gewährleisten und so dafür zu sorgen, dass BI, Data Science und Machine Learning korrekt und sinnvoll umgesetzt werden können. Mit der Fähigkeit, Datenqualität über vordefinierte Fehlerrichtlinien – etwa für Ausfälle, Verluste, Warnungen oder Datenquarantäne – zu definieren und zu erzwingen, können Sie verhindern, dass minderwertige Daten in die Tabellen gelangen, und Datenqualitätsmängel beseitigen, bevor sich diese auf Ihr Unternehmen auswirken können. Zudem können Sie die Entwicklung der Datenqualität im zeitlichen Verlauf überwachen, um einen Einblick in die Entwicklung der Daten zu erhalten und zu ermitteln, an welchen Stellen Änderungen erforderlich sein könnten. Mit den in Delta Lake integrierten Qualitätskontrollen und Tools zur Schemaerzwingung sparen Data-Engineering-Teams massiv Zeit und Energie bei der Fehlerbehandlung und -behebung. Da Databricks auf Apache Spark™ aufsetzt ist, können Data Engineers zudem äußerst zuverlässige und leistungsstarke Datenpipelines erstellen, die Data Science für die Produktion in großem Umfang unterstützen.

Orchestrate Reliable Workflows

Workflows includes Delta Live Tables to automatically manage the orchestration of your ETL pipelines and Jobs for SQL, Spark, notebooks, dbt, ML models, and more. This enables full support for end-to-end production-ready pipelines. The Workflows scheduler allows data teams to specify a time for their data, analytics, and ML workloads and set up notifications that tell them whether a job ran successfully.

Mehr Informationen

Einfache Orchestrierung von Pipelines

Produkt-Screenshot

Mit Data Scientists und Data Architects zusammenarbeiten

Nach der Erfassung und Verarbeitung der Daten können Data Engineers allen Anwendern im Unternehmen Zugriff und gemeinsame Bearbeitung der Daten in Echtzeit ermöglichen und so den daraus entstehenden Mehrwert erschließen. Mit Tools für den Zugriff auf und die Nutzung von Daten, die gemeinsame Nutzung von Datensätzen, Prognosen, Modellen und Notebooks und die Sicherstellung einer einzigen zuverlässigen Datenquelle können Data Engineers die Konsistenz und Zuverlässigkeit aller Workloads besser gewährleisten und die Zusammenarbeit mit Datennutzern – beispielsweise Datenanalysten, Data Scientists und Data Stewards – optimieren.

Ressourcen

Möchten Sie loslegen?