Passa al contenuto principale

Condivisione dei dati

Che cos'è il Data Sharing?

Il data sharing, o condivisione di dati, è la capacità di rendere gli stessi dati disponibili a uno o più consumatori. Oggi, la quantità di dati in continuo aumento è diventata una risorsa strategica per qualsiasi azienda. La condivisione di dati all'interno dell'organizzazione è, insieme al consumo di dati da fonti esterne, una tecnologia abilitante per nuove opportunità di business. La condivisione di dati consente di ​​collaborare con partner, instaurare nuove partnership e generare nuovi flussi di ricavi con la monetizzazione dei dati.

Ecco altre informazioni utili

Quanti tipi di data sharing esistono?

Esistono molti tipi diversi di data sharing, tra cui la condivisione all'interno e all'esterno di un'organizzazione, la condivisione uno-a-uno, la condivisione con più destinatari, la condivisione pubblica e la condivisione privata. Le aziende possono utilizzare marketplace di dati pubblici o privati per migliorare data sharing e collaborazione, e clean room per dati per tutelare la privacy di dati sensibili quali ad esempio le informazioni di identificazione personale (PII).

Quali problemi pone la condivisione dei dati?

La condivisione dei dati è essenziale per le aziende moderne, ma può rivelarsi problematica. Uno degli aspetti più critici è quello della sicurezza. Condividere solo i dati giusti, con le persone giuste e nel contesto giusto, richiede politiche strategiche, strumenti efficaci e processi intenzionali da adottare e applicare costantemente. Un'altra sfida è rappresentata dalla governance dei dati, ovvero garantire che i dati vengano utilizzati in conformità con normative specifiche. Anche problemi tecnici e strutturali di gestione dei dati, come la gestione di più sistemi e soluzioni legacy o proprietarie, possono creare ostacoli alla condivisione efficiente ed efficace dei dati.

Quali sono i vantaggi della condivisione dei dati per un'organizzazione?

La condivisione dei dati è fondamentale per l'evoluzione di un modello di business basato sui dati. Gartner prevede che, entro il 2024, le organizzazioni che promuovono il data sharing supereranno le loro concorrenti nella maggior parte delle metriche di valore aziendale. La condivisione dei dati elimina i silos, favorendo così una maggiore efficienza e trasparenza e un aumento della collaborazione sia all'interno di un'organizzazione che con i partner. Il data sharing riduce anche il tempo di recupero delle informazioni, contribuendo a migliorare le prestazioni. Infine, consentendo a un'organizzazione di offrire nuovi prodotti o servizi di dati, la condivisione dei dati offre la possibilità di creare nuovi flussi di ricavi.

Tecnologie tradizionali per la condivisione dei dati

Le tecnologie legacy, come SFTP (Secure File Transfer Protocol), email o API (Application Programming Interface), consentono l'implementazione di soluzioni interne indipendenti dai fornitori, che funzionano sia on-premise che su cloud. Tuttavia, spesso sono costose da gestire e mantenere e diventano sempre più difficili da proteggere e governare via via che le esigenze relative ai dati evolvono. Queste soluzioni possono rendere la condivisione dei dati complessa e dispendiosa in termini di tempo, e non sono scalabili per adattarsi alla gestione di grandi set di dati.

L'archiviazione a oggetti è ideale per il cloud perché la sua scalabilità supporta una crescita illimitata dei dati. È ampiamente disponibile, economica e affidabile, ma presenta anche degli svantaggi. Ad esempio, i destinatari devono essere sullo stesso cloud per accedere ai dati, e i processi di sicurezza e governance possono essere complicati. Inoltre, condividere grandi volumi di dati tramite l'archiviazione cloud è un processo lungo, complesso e quasi impossibile da scalare.

Offerte commerciali/chiuse per la condivisione di dati

Soluzioni di data sharing sono integrate nei prodotti di fornitori come Oracle, Amazon Redshift o Snowflake. Queste soluzioni sono comode da utilizzare all'interno di un prodotto e permettono agli utenti di condividere facilmente i dati con chiunque utilizzi la stessa piattaforma. Tuttavia, gli utenti non possono condividere dati con utenti di soluzioni concorrenti, e la scalabilità è spesso limitata dai fornitori. Con queste soluzioni, i dati devono essere caricati sulla piattaforma, il che richiede processi di estrazione, trasformazione e caricamento (ETL) e crea copie dei dati. Tutte queste restrizioni creano complessità, problemi di controllo delle versioni e costi più elevati per la condivisione dei dati con destinatari su piattaforme cloud diverse.

Moderne soluzioni open-source per la condivisione dei dati

Nella realtà odierna, fatta di infrastrutture a volte complesse con molteplici piattaforme, avere una soluzione di condivisione dei dati open-source può offrire una preziosa flessibilità. Le soluzioni open-source non hanno i vincoli delle soluzioni commerciali e offrono molti vantaggi aggiuntivi, ad esempio integrazioni sviluppate dalla community con popolari framework open-source per l'elaborazione dei dati. Inoltre, i protocolli aperti agevolano l'integrazione con client commerciali, come gli strumenti di Business Intelligence.

Marketplace di dati

I marketplace di dati consentono la condivisione e la monetizzazione dei dati e sono strumenti importanti per il data sharing e la collaborazione. I marketplace possono assumere diverse forme, tra cui:

  • Marketplace di dati interni, per la condivisione di dati all'interno di un'azienda
  • Marketplace di dati privati, per la condivisione di dati con partner di fiducia
  • Marketplace di dati pubblici, che mettono in contatto fornitori e consumatori di dati

I marketplace di dati pubblici offrono l'opportunità di acquistare e vendere dati e servizi correlati direttamente dai fornitori, in un ambiente sicuro che fornisce risorse coerenti e di alta qualità. Le aziende possono utilizzare i marketplace per acquisire dati di terze parti con cui arricchire i propri dati esistenti, o offrire e monetizzare nuovi prodotti e servizi di dati.

Clean room per i dati

Le clean room per i dati consentono alle aziende di collaborare facilmente con tutti i loro clienti e partner, su qualsiasi cloud, in un ambiente sicuro e governato e nel rispetto della privacy. All'interno di una clean room per i dati, più partecipanti possono unire i propri dati di prima parte e sottoporli ad analisi senza il rischio di esporli ad altri partecipanti. I partecipanti hanno il pieno controllo sui propri dati e possono decidere a chi permettere di eseguire analisi su di essi senza rivelare dati sensibili come le informazioni personali (PII).

Delta Sharing

Delta Sharing è il primo protocollo aperto per la condivisione sicura dei dati che semplifica la condivisione con altre organizzazioni, indipendentemente dalle piattaforme di calcolo utilizzate.

  • Condivisione dei dati in diretta — I dati presenti in Delta Lake possono essere facilmente condivisi in tempo reale senza essere copiati in altri sistemi.
  • Supporto di diversi client — I destinatari dei dati si possono connettere direttamente a Delta Shares da Pandas, Apache Spark™, Rust e altri sistemi, senza dover prima implementare una piattaforma di calcolo specifica. La fornitura di dati agli utenti diventa così più fluida.
  • Sicurezza e governance — ​​Delta Sharing consente di governare, tracciare e verificare con facilità l'accesso ai dati.
  • Scalabilità — Set di dati di grandi dimensioni possono essere condivisi in modo affidabile ed efficiente sfruttando sistemi di storage in cloud come S3, ADLS e GCS.

Delta Sharing su Databricks

Databricks integra nativamente Delta Sharing in Unity Catalog, offrendo un'esperienza fluida per la condivisione di dati all'interno di ogni organizzazione e fra diverse organizzazioni. I destinatari dei dati non devono operare necessariamente sulla piattaforma Databricks o sullo stesso cloud, né sul cloud in generale.

Delta Sharing offre diversi vantaggi chiave, tra cui:

  • Condivisione aperta fra diverse piattaforme
  • Condivisione di dati in tempo reale senza replica
  • Governance centralizzata
  • Possibilità di condividere prodotti di dati, inclusi modelli di AI, dashboard e notebook, con maggiore flessibilità
  • Costi minori
  • Riduzione del time-to-value

Delta Sharing è un ecosistema aperto di partner open source e commerciali che continua a crescere. Databricks ha recentemente ampliato le partnership di Delta Sharing per includere Cloudflare, Dell, Oracle e Twilio.

Delta Sharing: un ecosistema aperto

Maggiori informazioni sulla condivisione dei dati in Databricks

Delta Sharing consente di condividere dati in tempo reale tra più piattaforme, cloud e regioni in modo semplice e sicuro. Delta Sharing sta già trasformando l'approccio al data sharing di numerose aziende in una varietà di settori diversi. Inizia subito a usare Databricks Delta Sharing.

Torna al Glossario