Passa al contenuto principale

Delta Lake

Affidabilità, sicurezza e prestazioni per il data lake

marketure

Che cos'è Delta Lake?

Delta Lake è un livello di storage con formato aperto che offre affidabilità, sicurezza e prestazioni per il data lake, per operazioni sia in streaming sia in batch. Sostituendo i silos di dati con un'unica sede per dati strutturati, semi-strutturati e non strutturati, Delta Lake costituisce le fondamenta di una lakehouse altamente scalabile con costi contenuti.

Delta-Lake-Image

Dati affidabili di alta qualità

Crea un'unica fonte affidabile per tutti i dati, inclusi i flussi in tempo reale, in modo che i team possano lavorare sempre sui dati più aggiornati. Grazie al supporto di transazioni ACID e all'applicazione di schemi, Delta Lake offre l'affidabilità che solitamente manca ai data lake tradizionali. Si possono così ottenere informazioni approfondite dai dati in tutta l'organizzazione, effettuare analisi e realizzare altri progetti con i dati direttamente sul data lake aziendale, per estrapolare informazioni fino a 50 volte più velocemente.

unity-catalog

Condivisione di dati aperta e sicura

Delta Sharing è il primo protocollo aperto per la condivisione sicura dei dati, che semplifica la condivisione con altre organizzazioni indipendentemente dal luogo in cui i dati risiedono. L'integrazione nativa con Unity Catalog consente di gestire e revisionare centralmente i dati condivisi fra diverse organizzazioni. Si possono così condividere in modo sicuro dati con fornitori e partner, per coordinare meglio le attività rispettando al tempo stesso le esigenze di sicurezza e conformità. Le integrazioni con gli strumenti e le piattaforme più diffusi consentono di visualizzare, interrogare, arricchire e governare i dati condivisi utilizzando gli strumenti preferiti.

delta-lake-product

Prestazioni velocissime

Basato su Apache Spark™, Delta Lake offre scalabilità e velocità elevate. Inoltre, essendo ottimizzato con funzionalità ad alte prestazioni come l'indicizzazione, Delta Lake ha garantito ad alcuni clienti l'esecuzione di carichi di lavoro ETL con tempi fino al 48% più rapidi.

delta-lak

Aperto e agile

Tutti i dati in Delta Lake sono conservati nel formato aperto Apache Parquet, che rende i dati leggibili con qualsiasi lettore compatibile. Le API sono aperte e compatibili con Apache Spark. Con Delta Lake su Databricks, avrai accesso a un vasto ecosistema open-source ed eviterai l'isolamento dei dati causato dall'utilizzo di formati proprietari.

Pipeline-Graph

Ingegneria dei dati automatizzata e affidabile

Semplifica l'ingegneria dei dati con Delta Live Tables – un modo semplice per costruire e gestire pipeline di dati per avere dati freschi di alta qualità su Delta Lake. La soluzione aiuta i team di ingegneria dei dati semplificando lo sviluppo e la gestione delle attività ETL attraverso lo sviluppo di pipeline dichiarative, una maggiore affidabilità dei dati e attività produttive in cloud, per contribuire alla costruzione della piattaforma lakehouse.

unity_catalog

Sicurezza e governance su larga scala

Delta Lake riduce il rischio mediante un controllo degli accessi granulare per la governance dei dati, una funzionalità normalmente non disponibile sui data lake. I dati nel data lake possono essere aggiornati in modo rapido e preciso per garantire la conformità a regolamenti come il GDPR e mantenere una governance migliore attraverso un registro delle modifiche. Queste funzionalità sono integrate in maniera nativa e potenziate su Databricks nell'ambito di Unity Catalog, il primo data catalog multicloud per il Lakehouse.

Casi d'uso

Delta Lake Use cases

Business Intelligence sui dati

Metti istantaneamente a disposizione dati nuovi in tempo reale per le query degli analisti, per ottenere informazioni immediate sull'attività dell'azienda facendo girare i carichi di lavoro di business intelligence direttamente sul data lake. Delta Lake consente di gestire un'architettura lakehouse multicloud che offre le prestazioni di un data warehouse al costo di un data lake, con un rapporto prezzo/prestazioni per i carichi di lavoro SQL fino a 6 volte migliore rispetto ai tradizionali data warehouse in cloud.

Maggiori informazioni
Delta Lake Use cases

Unificare batch e streaming

Esegui operazioni in batch e in streaming su un'unica architettura semplificata che evita sistemi complessi e ridondanti e sfide operative. In Delta Lake, una tabella è sia una tabella batch, sia una sorgente e destinazione (source and sink) di streaming. Acquisizione di dati in streaming, caricamento di dati storici in batch e query interattive sono tutte operazioni che funzionano "out of the box" e si integrano direttamente con Spark Structured Streaming.

Delta Lake Use cases

Rispettare le disposizioni normative

Delta Lake elimina i problemi di acquisizione di dati distorti, difficoltà nella cancellazione di dati per garantire la conformità o problemi di modifica dei dati per acquisire i dati variati. Delta Lake offre transazioni ACID sui data lake per garantire che ogni operazione vada a buon fine oppure venga completamente annullata per essere ripetuta in un secondo tempo, senza richiedere la creazione di nuove pipeline di dati. Inoltre, Delta Lake registra tutte le transazioni passate effettuate sul data lake, agevolando l'accesso e l'utilizzo di versioni precedenti dei dati a scopo di conformità a regolamenti quali GDPR e CCPA.

Data Ingestion Network

I connettori nativi acquisiscono facilmente i dati in Delta Lake, in modo veloce e affidabile, da tutte le applicazioni, tutti i database e tutti i sistemi di storage di file.

Clienti

healthdirect

“Databricks ci ha garantito il time-to-market e i miglioramenti nelle attività analitiche e operative di cui avevamo bisogno per rispondere alle nuove esigenze del settore della sanità”.
– Peter James, Chief Architect, Healthdirect Australia

Maggiori informazioni
Yipit Data

"Sfruttando Databricks e Delta Lake, siamo già riusciti a democratizzare i dati su larga scala, riducendo al tempo stesso i costi di esecuzione dei carichi di lavoro in produzione del 60%, con un risparmio di milioni di dollari”.
— Steve Pulec, Chief Technology Officer, YipitData
Maggiori informazioni →

Maggiori informazioni
Columbia

“Delta Lake offre funzionalità ACID che semplificano le attività sulla pipeline dei dati, aumentando l'affidabilità della pipeline stessa e l'omogeneità dei dati. Al tempo stesso, funzionalità come la memorizzazione nella cache e l'autoindicizzazione offrono un accesso efficiente ai dati”.
— Lara Minor, Senior Enterprise Data Manager, Columbia Sportswear

Maggiori informazioni
Viacom 18

“Delta Lake ha creato un approccio snello alla gestione delle pipeline di dati. Questo ha portato a una riduzione dei costi operativi, accelerando al tempo stesso le tempistiche per acquisire informazioni approfondite per le analisi e la data science a valle”.
— Parijat Dey, Assistant Vice President of Digital Transformation and Technology, Viacom18

Maggiori informazioni