Aggiornamento: Delta Sharing è ora disponibile a livello generale su AWS e Azure.
La Data Sharing è diventata una componente essenziale per generare valore di business, in quanto le aziende di ogni dimensione cercano di scambiare dati in modo sicuro con clienti, fornitori e partner. Secondo un recente sondaggio di Gartner, le organizzazioni che promuovono il Data Sharing avranno prestazioni migliori dei loro concorrenti nella maggior parte delle metriche di valore di business.
Le attuali soluzioni per il Data Sharing presentano varie sfide che ne limitano la diffusione all'interno o tra le organizzazioni, impedendo di realizzare il vero valore dei dati. Negli ultimi 30 anni, le soluzioni di Data Sharing si sono presentate in due forme: soluzioni sviluppate internamente o soluzioni commerciali di terze parti. Con le soluzioni sviluppate internamente, la Data Sharing è stata basata su tecnologie legacy come SFTP e APIs REST, che sono diventate difficili da gestire, manutenere o scalare con i nuovi requisiti dei dati. In alternativa, le soluzioni commerciali per il Data Sharing consentono di condividere dati solo con altri che sfruttano la stessa piattaforma, il che limita la condivisione e può essere costoso.
Queste sfide ci hanno portato, in Databricks, a ripensare il futuro del Data Sharing come aperto. Durante il Data + AI Summit 2021, abbiamo annunciato Delta Sharing, il primo protocollo aperto al mondo per la condivisione sicura e scalabile di dati in tempo reale. La nostra visione alla base di Delta Sharing è creare una soluzione di Data Sharing che semplifichi la condivisione sicura di dati in tempo reale tra organizzazioni, indipendentemente dalla piattaforma su cui i dati risiedono o vengono utilizzati. Con Delta Sharing, le organizzazioni possono condividere facilmente set di dati esistenti su larga scala basati sui formati Apache Parquet e Delta Lake senza spostare i dati e offrire ai team di dati la flessibilità di eseguire query, visualizzare e arricchire i dati condivisi con gli strumenti di loro scelta.

Dal lancio dell'anteprima privata, abbiamo riscontrato un enorme coinvolgimento da parte di clienti di tutti i settori industriali per collaborare e sviluppare una soluzione di Data Sharing adatta allo scopo e aperta a tutti. I clienti hanno già condiviso petabyte di dati tramite Delta Sharing. Anche l'ecosistema di partner di Delta Sharing è cresciuto dall'annuncio, con client commerciali e open source che hanno integrato connettori Delta Sharing, come PowerBI, Pandas e Apache Spark™, e molti altri che verranno rilasciati a breve.
Attraverso le conversazioni con i nostri clienti, abbiamo identificato tre casi d'uso comuni: commercializzazione dei dati, condivisione dei dati con partner e clienti esterni e condivisione dei dati di line of business. In questo post su un blog, esploriamo ciascuno dei principali casi d'uso e condividiamo alcune delle informazioni dettagliate che riceviamo dai nostri clienti.
Esempio cliente: un fornitore di dati finanziari era interessato a ridurre le inefficienze operative con i suoi canali di distribuzione dei dati legacy e a semplificare per i clienti finali l'accesso trasparente a nuovi set di dati di grandi dimensioni.
Il fornitore di dati ha recentemente lanciato nuovi set di dati testuali di grandi dimensioni, con terabyte di dati prodotti regolarmente. Fornire un accesso rapido e semplice a questi set di dati di grandi dimensioni è stata una sfida persistente per il fornitore di dati, poiché i set di dati erano difficili da acquisire in blocco per i destinatari. Con la soluzione attuale, il fornitore doveva replicare i dati su server SFTP esterni, il che comportava molti potenziali punti di errore e una maggiore latenza.
Dal lato del destinatario, l'acquisizione e la gestione di questi dati non era facile a causa delle loro dimensioni e della loro scala. I destinatari dei dati dovevano configurare un'infrastruttura per l'acquisizione, che richiedeva inoltre l'approvazione degli amministratori IT e di database, con conseguenti ritardi che potevano richiedere settimane, se non di più, prima che il consumatore finale potesse iniziare a utilizzare i dati.
Con Delta Sharing, il fornitore di dati può ora condividere set di dati di grandi dimensioni in modo trasparente e superare i problemi di scalabilità dei server SFTP. Questi grandi set di dati testuali dell'ordine dei terabyte, che dovevano essere estratti in batch su SFTP, ora sono accessibili in tempo reale tramite Delta Sharing. Il fornitore ora può semplicemente concedere e gestire l'accesso ai destinatari dei dati invece di replicare i dati, riducendo così la complessità e la latenza. Grazie alla maggiore scalabilità, il fornitore di dati sta registrando un aumento significativo dell'adozione da parte dei clienti, poiché i consumatori di dati hanno accesso a dati in tempo reale invece di dover estrarre i set di dati a intervalli regolari.
Esempio di cliente: un grande rivenditore aveva la necessità di condividere facilmente i dati del prodotto (ad es. le vendite di SKU di cereali) con i partner, senza utilizzare la loro stessa piattaforma di Data Sharing o di cloud computing. Il rivenditore voleva creare set di dati partizionati in base agli SKU per consentire ai partner di accedere facilmente ai dati pertinenti in tempo reale.
Il rivenditore utilizzava SFTP e API sviluppati internamente per condividere i dati con i partner, una soluzione che era diventata ingestibile. Questa soluzione richiedeva una notevole quantità di risorse di sviluppo per la manutenzione e il funzionamento. Il rivenditore ha valutato altre soluzioni di Data Sharing, ma queste richiedevano che i loro partner fossero sulla stessa piattaforma, il che non è fattibile per tutte le parti a causa dei costi e dell'overhead operativo della replica dei dati in aree geografiche diverse.
Delta Sharing si è rivelata una soluzione interessante per il rivenditore per gestire e condividere i dati in modo efficiente tra piattaforme cloud, senza la necessità di replicare i dati tra le regioni. Il rivenditore ha trovato semplice gestire, creare e verificare le condivisioni di dati per i suoi oltre 100 partner tramite Delta Sharing. Per ogni partner, il rivenditore può creare facilmente partizioni e condividere i dati in modo sicuro senza la necessità di trovarsi sulla stessa piattaforma dati. Oltre a semplificare la gestione delle condivisioni, Delta Sharing minimizza anche i costi, poiché il fornitore di dati sostiene solo i costi di uscita dei dati dal provider di cloud sottostante e non deve pagare alcun costo di compute per la Data Sharing.
Esempio cliente: un'azienda produttrice vuole che i data scientist delle sue oltre 15 divisioni e filiali abbiano accesso a dati autorizzati per creare modelli predittivi. Il produttore vuole farlo con solide funzionalità di governance, controllo e auditing a causa della sensibilità dei dati.
Il produttore dispone di numerose implementazioni di data lake, il che rende difficile per i team di tutta l'organizzazione accedere ai dati in modo sicuro ed efficiente. La gestione di tutti questi dati all'interno dell'organizzazione viene eseguita in modo personalizzato, senza controlli rigorosi su autorizzazioni e governance. Inoltre, molti di questi set di dati hanno dimensioni di petabyte, causando preoccupazione per la capacità di condividere questi dati in modo scalabile. La direzione era esitante nel condividere i dati senza controlli di accesso e governance dei dati adeguati. Di conseguenza, il produttore stava perdendo opportunità uniche per sbloccare valore e consentire ai team di Data Science di ottenere informazioni dettagliate più esclusive.
Con Delta Sharing, l'azienda produttrice ha ora la possibilità di governare e condividere i dati tra diverse entità interne senza doverli spostare. Delta Sharing consente all'azienda produttrice di concedere, tracciare e verificare l'accesso ai dati condivisi da un unico punto di controllo. Senza dover spostare questi grandi set di dati, il produttore non deve preoccuparsi di gestire servizi diversi per replicare i dati. Delta Sharing ha permesso al produttore di condividere i dati in modo sicuro e molto più rapidamente di quanto si aspettasse, offrendo vantaggi immediati poiché gli utenti finali hanno potuto iniziare a lavorare con set di dati unici che in precedenza erano isolati. L'azienda produttrice è anche entusiasta di utilizzare il connettore Delta Sharing integrato con PowerBI, il suo strumento preferito per la visualizzazione dei dati.
Delta Sharing semplifica la condivisione dei dati con altre organizzazioni, indipendentemente dalle piattaforme di dati che utilizzano. Siamo entusiasti di condividere la prima soluzione aperta e sicura, senza lock-in proprietario, che aiuta i team di dati a condividere facilmente i dati e a gestire privacy, sicurezza e conformità tra le organizzazioni.
Per provare Delta Sharing su Databricks, contatta il tuo account executive Databricks o registrati per ottenere un accesso anticipato. Per molti dei nostri clienti, la governance è una priorità assoluta quando si condividono dati. Delta Sharing è integrato in modo nativo con Unity Catalog, che consente ai clienti di aggiungere controlli di governance e sicurezza granulari, rendendo facile e sicura la condivisione dei dati internamente o esternamente. Una volta abilitato Unity Catalog nel tuo account databricks, prova i Notebook di avvio rapido riportati di seguito per iniziare a usare Delta Sharing su Databricks:
Per provare la release open source di Delta Sharing, seguire le istruzioni all'indirizzo delta.io/sharing.
Ci piacerebbe ricevere il tuo feedback sul progetto Delta Sharing e idee o contributi per nuove funzionalità. Partecipa alla community di Delta Sharing seguendo le istruzioni qui.
Produto
June 12, 2024/11 min de leitura

