Delta Lake UniForm
Storage ad alte prestazioni e indipendente dal formato per il tuo data lakehouse
Delta Lake UniForm unifica i dati nel tuo lakehouse, di qualunque formato e tipo, per tutti i tuoi carichi di lavoro di analisi e AI .
Aperto agli altri formati
Utilizza i tuoi strumenti per analisi e AI esistenti, indipendentemente dal formato dei dati aperti. UniForm converte automaticamente e istantaneamente in diversi formati, così puoi conservare un'unica copia dei dati di origine e continuare a utilizzare il tuo client Iceberg o Hudi preferito per leggere le tabelle Delta tramite l'endpoint Unity Catalog. Con UniForm i tuoi dati rimangono portabili, senza vincolarti a un unico fornitore.
Connessi attraverso gli ecosistemi
Delta Lake dispone di un vasto ecosistema di connettori e supporta numerosi framework e linguaggi. Delta Sharing è il primo protocollo aperto per la condivisione sicura dei dati, che semplifica la condivisione con altre organizzazioni indipendentemente dal luogo in cui i dati risiedono. L'integrazione nativa con Unity Catalog consente di gestire e revisionare centralmente i dati condivisi fra diverse organizzazioni. Si possono così condividere in modo sicuro risorse di dati con fornitori e partner, per coordinare meglio le attività rispettando al tempo stesso le esigenze di sicurezza e conformità. Le integrazioni con gli strumenti e le piattaforme più diffusi ti consentono inoltre di visualizzare, interrogare, arricchire e governare i dati condivisi utilizzando i tuoi strumenti preferiti.
Prestazioni veloci e affidabili
Delta Lake offre altissimi livelli di scalabilità e velocità, con caricamenti di dati e query fino a 1,7 volte più veloci rispetto ad altri formati di archiviazione. Utilizzato in produzione da oltre 10.000 clienti, Delta Lake può elaborare oltre 40 milioni di eventi al secondo in un'unica pipeline. Più di 5 exabyte al giorno vengono elaborati utilizzando Delta Lake.
Quando UniForm è abilitato sulle tabelle Delta Lake, la scrittura di metadati di altri formati non compromette le prestazioni delle query. Le tabelle UniForm offrono prestazioni di lettura pari a quelle dei formati proprietari nei loro motori nativi.
Basato sull'AI per il miglior rapporto prezzo/prestazioni
La Databricks Data Intelligence Platform ottimizza i dati in base ai tuoi modelli di utilizzo. Il miglioramento delle prestazioni guidate dall'AI, resi possibili da DatabricksIQ, il motore di data intelligence per Databricks , amministrano, configurano e ottimizzano automaticamente i tuoi dati.
Il clustering liquido offre le prestazioni di una tabella ben ottimizzata e partizionata senza i tradizionali inconvenienti associati al partizionamento, come l'incertezza nella possibilità di partizionare colonne ad alta cardinalità o la necessità di costose riscritture quando si modificano le colonne di partizione. Il risultato? Tabelle velocissime e ben clusterizzate che richiedono una configurazione minima.
L'ottimizzazione predittiva ottimizza automaticamente i dati per ottenere il miglior rapporto tra prestazioni e prezzo. Questa funzione apprende dai modelli di utilizzo dei dati, pianifica le ottimizzazioni più appropriate e le esegue su un'infrastruttura serverless iper-ottimizzata.
Sicurezza e governance su larga scala
Delta Lake riduce il rischio mediante un controllo degli accessi granulare per la governance dei dati, una funzionalità normalmente non disponibile sui data lake. I dati nel data lake possono essere aggiornati in modo rapido e preciso per garantire la conformità a regolamenti come il GDPR e mantenere una governance migliore attraverso un registro delle modifiche. Queste funzionalità sono integrate in maniera nativa e potenziate su Databricks nell'ambito di Unity Catalog, il primo data catalog multicloud per il lakehouse.
Ingegneria dei dati automatizzata e affidabile
Semplifica l'ingegneria dei dati con Delta Live Tables – un modo semplice per costruire e gestire pipeline di dati per avere dati aggiornati di alta qualità su Delta Lake. La soluzione aiuta i team di ingegneria dei dati semplificando lo sviluppo e la gestione dei processi ETL attraverso lo sviluppo di pipeline dichiarative, una maggiore affidabilità dei dati e attività produttive in cloud per gettare le basi del lakehouse.
Casi d'uso
Business Intelligence sui dati
Metti istantaneamente a disposizione dati nuovi in tempo reale per le query degli analisti, per ottenere informazioni immediate sull'attività dell'azienda facendo girare i carichi di lavoro di business intelligence direttamente sul data lake. Delta Lake consente di gestire un'architettura lakehouse multicloud che offre le prestazioni di un data warehouse al costo di un data lake, con un rapporto prezzo/prestazioni per i carichi di lavoro SQL fino a 6 volte migliore rispetto ai tradizionali data warehouse in cloud.
Unificare batch e streaming
Esegui operazioni in batch e in streaming su un'unica architettura semplificata che evita sistemi complessi e ridondanti e sfide operative. In Delta Lake, una tabella è sia una tabella batch, sia una sorgente e destinazione (source and sink) di streaming. Acquisizione di dati in streaming, caricamento di dati storici in batch e query interattive sono tutte operazioni che funzionano "out of the box" e si integrano direttamente con Spark Structured Streaming.
Rispettare le disposizioni normative
Delta Lake elimina i problemi di acquisizione di dati distorti, difficoltà nella cancellazione di dati per garantire la conformità o problemi di modifica dei dati per acquisire i dati variati. Delta Lake offre transazioni ACID sui data lake per garantire che ogni operazione vada a buon fine oppure venga completamente annullata per essere ripetuta in un secondo tempo, senza richiedere la creazione di nuove pipeline di dati. Inoltre, Delta Lake registra tutte le transazioni passate effettuate sul data lake, agevolando l'accesso e l'utilizzo di versioni precedenti dei dati a scopo di conformità a regolamenti quali GDPR e CCPA.
Scopri di più
Clienti
“Databricks ci ha garantito il time-to-market e i miglioramenti nelle attività analitiche e operative di cui avevamo bisogno per rispondere alle nuove esigenze del settore della sanità”.
– Peter James, Chief Architect, Healthdirect Australia
"Sfruttando Databricks e Delta Lake, siamo già riusciti a democratizzare i dati su larga scala, riducendo al tempo stesso i costi di esecuzione dei carichi di lavoro in produzione del 60%, con un risparmio di milioni di dollari”.
— Steve Pulec, Chief Technology Officer, YipitData
Maggiori informazioni →
“Delta Lake offre funzionalità ACID che semplificano le attività sulla pipeline dei dati, aumentando l'affidabilità della pipeline stessa e l'omogeneità dei dati. Al tempo stesso, funzionalità come la memorizzazione nella cache e l'autoindicizzazione offrono un accesso efficiente ai dati”.
— Lara Minor, Senior Enterprise Data Manager, Columbia Sportswear
“Delta Lake ha creato un approccio snello alla gestione delle pipeline di dati. Questo ha portato a una riduzione dei costi operativi, accelerando al tempo stesso le tempistiche per acquisire informazioni approfondite per le analisi e la data science a valle”.
— Parijat Dey, Assistant Vice President of Digital Transformation and Technology, Viacom18