Condivisione dei dati
Che cos'è il Data Sharing?
Il Data Sharing, o condivisione di dati, è la capacità di rendere gli stessi dati disponibili a uno o più consumatori. Oggi, la quantità di dati in continuo aumento è diventata una risorsa strategica per qualsiasi azienda. La condivisione di dati all'interno e all'esterno dell'organizzazione è una tecnologia abilitante per nuove opportunità di business. La condivisione di dati, insieme al consumo di dati da fonti esterne, consente di collaborare con partner, instaurare nuove partnership e generare nuovi flussi di ricavi con la monetizzazione dei dati.
Tecnologie tradizionali per la condivisione dei dati
In primo luogo esistono tecnologie come SFTP (SSH File Transfer Protocol) o sistemi di storage in cloud che consentono di implementare soluzioni "fatte in casa". Tuttavia, SFTP non è scalabile per un numero elevato di client e serve solo file scaricati a un server FTP. L'uso di URL pre-firmati per lo stoccaggio di oggetti a scopo di condivisione dei dati si adatta alla larghezza di banda del servizio di storage in cloud, ma funziona solo per un determinato fornitore di servizi cloud.
Offerte commerciali/chiuse per la condivisione di dati
La seconda categoria di soluzioni per la condivisione dei dati è quella integrata nei prodotti delle aziende fornitrici, ad esempio Oracle, AWS Redshift o Snowflake. Queste soluzioni sono comode da usare all'interno di un prodotto e condividono tabelle invece di file, ma non sono aperte e, pertanto, non consentono di condividere i dati con una piattaforma diversa.
Moderne soluzioni open-source per la condivisione dei dati
Le soluzioni open-source non hanno i vincoli delle soluzioni commerciali e offrono molti vantaggi aggiuntivi, ad esempio integrazioni sviluppate dalla community con framework open-source per l'elaborazione dei dati. Inoltre, i protocolli aperti agevolano l'integrazione con client commerciali, come gli strumenti di Business Intelligence.
Delta Sharing
Delta Sharing è il primo protocollo aperto per la condivisione sicura dei dati, che semplifica la condivisione con altre organizzazioni indipendentemente dalle piattaforme di calcolo utilizzate.
- Condivisione dei dati in diretta — I dati presenti in Delta Lake possono essere facilmente condivisi in tempo reale senza essere copiati in altri sistemi.
- Supporto di diversi client — I destinatari dei dati si possono connettere direttamente a Delta Shares da Pandas, Apache Spark™, Rust e altri sistemi, senza dover prima implementare una piattaforma di calcolo specifica. La fornitura di dati agli utenti diventa così più fluida.
- Sicurezza e governance — Delta Sharing consente di governare, tracciare e verificare l'accesso ai set di dati condivisi con grande facilità.
- Scalabilità — Set di dati di grandi dimensioni possono essere condivisi in modo affidabile ed efficiente sfruttando sistemi di storage in cloud come S3, ADLS e GCS.
Delta Sharing su Databricks
Databricks integra nativamente Delta Sharing in Unity Catalog, offrendo un'esperienza fluida per la condivisione di dati all'interno di ogni organizzazione e fra diverse organizzazioni. Gli amministratori possono gestire le condivisioni utilizzando un nuovo comando CREATE SHARE SQL oppure API REST e verificare tutti gli accessi a livello centrale. I destinatari possono quindi consumare i dati da qualsiasi piattaforma o cloud.
Delta Sharing: un ecosistema aperto
L'ecosistema Delta Sharing di partner open-source e commerciali cresce ogni giorno. I dati possono essere condivisi con chiunque, ovunque si trovi.
Maggiori informazioni sulla condivisione dei dati in Databricks
Registrati per entrare nella lista d'attesa di Databricks Delta Sharing per conoscere anteprime e aggiornamenti.