Delta Live Tables (DLT) è un framework ETL dichiarativo per la Databricks Data Intelligence Platform che aiuta i team di gestione dei dati a semplificare i processi ETL in streaming e batch, con costi contenuti. Basta definire le trasformazioni da applicare ai dati e lasciare che le pipeline DLT gestiscano automaticamente l'orchestrazione delle attività, i cluster, il monitoraggio, la qualità dei dati e la risoluzione degli errori.
Acquisizione di dati efficiente
La costruzione di pipeline ETL pronte per la produzione sul lakehouse comincia con la cosiddetta "ingestione", cioè l'acquisizione dei dati. DLT consente un'acquisizione semplice ed efficiente per tutto il team, dai data engineer agli sviluppatori in Python, dai data scientist agli analisti SQL. Con DLT si possono caricare dati da qualsiasi sorgente supportata da Apache Spark™ su Databricks.
- Usa Auto Loader e tabelle di streaming per trasferire progressivamente i dati nel livello Bronze per pipeline DLT o query SQL in Databricks.
- Acquisisci dati da sistemi di storage in cloud, bus di messaggi e sistemi esterni.
- Usa Change Data Capture (CDC, acquisizione dei dati delle modifiche) in DLT per aggiornare le tabelle in base alle modifiche apportate ai dati sorgente.
“Delta Live Tables mi piace perché va oltre le funzionalità di Auto Loader, e rende ancora più semplice la lettura dei file. Sono rimasto a bocca aperta quando siamo riusciti a impostare una pipeline di streaming in 45 minuti."
— Kahveh Saramout, Senior Data Engineer, Labelbox
Trasformazione di dati intelligente a costi contenuti
Con poche righe di codice, DLT riesce a determinare il modo più efficiente per costruire ed eseguire pipeline di dati in streaming o in batch, ottimizzando il rapporto prezzo/prestazioni (quasi 4 volte il valore base di Databricks) e al tempo stesso riducendo al minimo la complessità.
- Implementa istantaneamente un'architettura a medaglione snella con tabelle di streaming e viste materializzate.
- Ottimizza la qualità dei dati ottenendo il massimo valore per l'azienda con funzionalità come le aspettative.
- Aggiorna le pipeline in modalità continua o trigger per adeguarle alle esigenze di attualità dei dati.
"Delta Live Tables ha aiutato i nostri team a risparmiare tempo e sforzi nella gestione dei dati nell'ordine di migliaia di miliardi di record e a migliorare continuamente le nostre capacità di ingegneria AI... Databricks sta rivoluzionando i mercati dell'ETL e dei data warehouse.”
— Dan Jeavons, General Manager Data Science, Shell
Semplice impostazione e manutenzione delle pipeline
Le pipeline DLT semplificano lo sviluppo di processi ETL automatizzando praticamente tutte le complessità operative. Grazie alle pipeline DLT, i tecnici si possono concentrare sulla fornitura di dati di alta qualità invece che sulla gestione e sulla manutenzione delle pipeline. DLT gestisce automaticamente:
- Orchestrazione delle attività
- CI/CD e controllo delle versioni
- Autoscalabilità dell'infrastruttura di calcolo per ridurre i costi
- Monitoraggio tramite metriche nel registro eventi
- Gestione degli errori e ripristino da guasti.
“Le architetture complesse, come la gestione dinamica degli schemi e le trasformazioni stateful/stateless (con/senza stato), erano difficili da implementare con una classica architettura data warehouse multicloud. Ora, data scientist e data engineer possono eseguire tali modifiche utilizzando Delta Live Tables scalabili senza barriere di ingresso.”
— Sai Ravuru, Senior Manager of Data Science and Analytics, JetBlue
Motore di elaborazione in streaming di nuova generazione
Spark Structured Streaming è la tecnologia chiave che sblocca lo streaming delle pipeline DLT, mettendo a disposizione un'API unificata per l'elaborazione in batch e streaming. Le pipeline DLT sfruttano la latenza intrinseca con tempi inferiori al secondo di Spark Structured Streaming, unita a un rapporto prezzo/prestazioni da record. L'utente ha sempre la possibilità di costruire le proprie pipeline di streaming ad alte prestazioni con Spark Structured Streaming, ma le pipeline DLT offrono un time-to-value più rapido, una velocità di sviluppo superiore e costi di gestione (TCO) inferiori, grazie alla gestione automatica delle attività operative.
“Non abbiamo dovuto fare nulla per portare DLT a pieno regime. Semplicemente, forniamo al sistema più dati e lui si adatta. Abbiamo la certezza che, senza alcuna configurazione o impostazione, gestirà tutto quello che gli diamo in pasto."
— Dott. Chris Inkpen, Global Solutions Architect, Honeywell
Confronto fra pipeline di Delta Live Tables e pipeline di Spark Structured Streaming "costruite su misura"
Spark Structured Streaming pipelines | DLT pipelines | ||
---|---|---|---|
Esecuzione su Databricks Lakehouse Platform | |||
Basato sul motore Spark Structured Streaming | |||
Integrazione con Unity Catalog | |||
Orchestrazione con Databricks Workflows | |||
Acquisizione dei dati da decine di sorgenti, dai sistemi di storage in cloud ai bus di messaggi | |||
Orchestrazione del flusso di dati | Manuale | Automazione | |
Verifiche e controllo della qualità dei dati | Manuale | Automazione | |
Gestione degli errori e ripristino da guasti | Manuale | Automazione | |
CI/CD e controllo delle versioni | Manuale | Automazione | |
Autoscalabilità della capacità di calcolo | Base |
Governance e storage dei dati unificati
Eseguire pipeline DLT su Databricks significa trarre vantaggio dai componenti fondamentali della Data Intelligence Platform basata sull'architettura lakehouse: Unity Catalog e Delta Lake. I dati grezzi vengono ottimizzati con Delta Lake, l'unico framework di storage open-source progettato fin dall'inizio per dati in streaming e in batch. Unity Catalog offre una governance integrata e dettagliata per tutti gli asset di dati e AI, con un unico modello omogeneo di scoperta, accesso e condivisione dei dati su diversi cloud. Unity Catalog offre inoltre supporto nativo per Delta Sharing, il primo protocollo aperto per la condivisione semplice e sicura dei dati con altre organizzazioni.
“Siamo assolutamente entusiasti dell'integrazione di Delta Live Tables con Unity Catalog. Questa integrazione contribuirà a snellire e automatizzare la governance dei dati per le nostre pipeline DLT, aiutandoci a soddisfare i nostri stringenti requisiti di gestione e sicurezza dei dati, oltre ad acquisire milioni di eventi in tempo reale. Si apre così un mondo di potenziali opportunità e migliorie per i nostri casi d'uso relativi a modellazione del rischio e rilevamento delle frodi."
— Yue Zhang, Staff Software Engineer, Block