Direkt zum Hauptinhalt

Datenaufnahme

Daten ganz einfach in Delta Lake laden

data-ingestion-hero-video-img

Mit Databricks können Sie Daten aus Hunderten von Datenquellen inkrementell und effizient in Ihren Delta Lake aufnehmen, um sicherzustellen, dass Ihr Lakehouse immer die vollständigsten und aktuellsten Daten enthält, die für Data Science, Machine Learning und Business Analytics verfügbar sind.

Data Ingestion – vereinfacht

secondary icon

Auto Loader

Verwenden Sie Auto Loader, um jede Datei, die in einem Data Lake landen kann, in Delta Lake aufzunehmen. Verweisen Sie Auto Loader auf eine Verzeichnis eines Cloud-Speicherdiensts wie Amazon S3, Azure Data Lake Storage oder Google Compute Storage, und Auto Loader verarbeitet neue Dateien inkrementell mit genau einmaliger Semantik.

graphic

Tracking und Monitoring

Lassen Sie Auto Loader nachverfolgen, welche Dateien verarbeitet wurden, verspätet eingegangene Daten erkennen, Ihr Datenschema ableiten, Schemaänderungen im Laufe der Zeit überwachen und Daten mit Datenqualitätsproblemen retten. Auto Loader kann Daten kontinuierlich innerhalb von Sekunden aufnehmen oder die Ausführung mit Ihrer erwarteten Datenankunftsrate planen – sei es einmal pro Stunde, einmal pro Tag oder einmal im Monat.

Icon Graphic

COPY INTO

Der SQL-Befehl COPY INTO ermöglicht Analysten die Dateiaufnahmen als Batch in Delta Lake. COPY INTO ist ein Befehl, der Dateien mit genau einmaliger Semantik aufnimmt. Er wird optimal verwendet, wenn das Eingabeverzeichnis Tausende oder weniger Dateien enthält und der Benutzer SQL bevorzugt. COPY INTO kann über JDBC verwendet werden, um Daten nach Belieben in Delta Lake zu übertragen.

Data ingestion Delta Lake
Data ingestion - Data processing

Effiziente Datenverarbeitung

Mit Databricks können Sie Daten aus beliebten Nachrichtenwarteschlangen wie Apache Kafka, Azure Event Hubs oder AWS Kinesis mit geringeren Latenzen abrufen. Durch die Aufnahme Ihrer Daten aus diesen Quellen in Ihren Delta Lake müssen Sie sich keine Sorgen machen, dass Daten innerhalb dieser Dienste aufgrund von Aufbewahrungsrichtlinien verloren gehen. Sie können Daten kostengünstiger und effizienter erneut verarbeiten, wenn sich die Geschäftsanforderungen ändern, und Sie können eine längere historische Ansicht Ihrer Daten zur Verwendung in Machine-Learning- wie auch Business-Analytics-Anwendungen behalten.

Daten aus anderen Unternehmensanwendungen vereinheitlichen

Nutzen Sie ein umfangreiches Data-Ingestion-Netzwerk von Partnern wie Azure Data Factory, Fivetran, Qlik, Infoworks, StreamSets und Syncsort, um Daten unter anderem aus Anwendungen, Datenspeichern, Mainframes und Dateien aus einer Reihe benutzerfreundlicher Konnektoren einfach in Delta Lake aufzunehmen. Nutzen Sie ein Partner-Ökosystem, um das volle Potenzial der Kombination von Big Data und Daten aus cloudbasierten Anwendungen, Datenbanken, Mainframes und Dateisystemen auszuschöpfen.

Data ingestion network of partners

Change-Data-Capture-Aufnahme aus Anwendungsdatenbanken in Delta Lake

Ihr Unternehmen ist auf Ihre Anwendungsdatenbanken angewiesen. Wenn Sie sie direkt in Data-Analytics-Anwendungsfällen nutzen, kann das aufgrund einer zu hohen Belastung der Datenbank zu Unterbrechungen in Ihren Geschäftsanwendungen führen. Indem Sie diese Datensätze in Ihr Lakehouse replizieren, stellen Sie sicher, dass Ihre Geschäftsanwendungen reibungslos funktionieren, während Sie die wertvollen Information in Ihren Analytics-Anwendungsfällen nutzen. Sie können Daten aus diesen Datenspeichern aufnehmen, indem Sie Dienste wie Azure Data Factory, AWS DMS und Auto Loader oder Partner wie Fivetran nutzen.

Kunden

Ähnliche Inhalte

Webinar

2022-01-WB-Hassle-Free-Data-Ingestion-Webinar-Series-OG-1200x628-1

E-Book

2021-08-EB-Data-Management-101-on-Databricks-OG-1200x628-1

E-Book

2022-02-EB-All-Roads-Lead-to-the-Lakehouse-OG-1200x628-1