Governance dei dati
Che cos'è la governance dei dati?
La governance dei dati è la supervisione necessaria per garantire che i dati apportino valore e supportino la strategia aziendale. La governance dei dati è più di un semplice strumento o processo. Uniforma i requisiti relativi ai dati alla strategia aziendale, utilizzando un quadro di riferimento che abbraccia persone, processi, tecnologia e dati, concentrandosi sulla cultura dell'azienda per supportarne obiettivi e traguardi.
Quali sono i vantaggi della governance dei dati per l'azienda?
Con l'aumento della quantità e della complessità dei dati, un numero sempre maggiore di organizzazioni si rivolge alla governance dei dati per garantire i seguenti risultati fondamentali:
- Qualità dei dati costante ed elevata come base per le analisi e il machine learning.
- Riduzione dei tempi di recupero delle informazioni.
- Supporto per la gestione del rischio e della conformità alle normative di settore come HIPPA, FedRAMP, GDPR o CCPA.
- Democratizzazione dei dati, ovvero possibilità per tutti i membri di un'organizzazione di prendere decisioni basate sui dati.
- Ottimizzazione dei costi, ad esempio impedendo agli utenti di avviare cluster e creando barriere per l'uso di istanze GPU costose.
Quali requisiti deve avere una buona soluzione di governance dei dati?
Solitamente le aziende data-driven costruiscono le loro architetture di dati per le analisi su lakehouse. Un data lakehouse è un'architettura che consente di utilizzare in modo efficiente e sicuro strumenti di data engineering, machine learning, data warehousing e Business Intelligence direttamente sulle grandi quantità di dati che sono memorizzati nei data lake. La governance dei dati per un data lakehouse fornisce una serie di funzionalità chiave:
- Catalogo unificato. Un catalogo unificato conserva tutti i dati, i modelli ML e gli artefatti analitici, nonché i metadati per ogni oggetto di dati. Il catalogo unificato integra anche i dati provenienti da altri cataloghi, come ad esempio un metastore Hive esistente.
- Controlli di accesso ai dati unificati. Un singolo modello di autorizzazione unificato per tutti gli asset e tutti i cloud di dati, incluso il controllo dell'accesso basato su attributi (ABAC) per le informazioni di identificazione personale (PII).
- Audit dei dati. L'accesso ai dati è controllato a livello centrale con avvisi e funzionalità di monitoraggio per promuovere la responsabilizzazione.
- Gestione della qualità dei dati. Robusta gestione della qualità dei dati con funzioni integrate di controllo della qualità, test, monitoraggio e verifica per garantire dati accurati e utili per i carichi di lavoro di BI, le analisi e il machine learning a valle.
- Provenienza dei dati. Tracciatura della provenienza dei dati per ottenere visibilità end-to-end su come i dati fluiscono nel lakehouse, dalla fonte all'utente finale.
- Individuazione dei dati. Facile individuazione dei dati per consentire a data scientist, analisti di dati e data engineer di scoprire e consultare rapidamente i dati rilevanti e accelerare il time to value.
- Condivisione dei dati. I dati possono essere condivisi tra cloud e piattaforme.
Qual è la differenza tra gestione dei dati e governance dei dati?
La gestione dei dati si concentra sulle attività in conformità alle politiche, i principi e gli standard di governance dei dati per fornire dati affidabili. Tali attività sono di solito incentrate su un singolo progetto e di breve durata. La governance dei dati viene trattata come un programma per ottenere benefici a lungo termine. Uno strumento centralizzato svolge un ruolo fondamentale nell'implementazione della governance.
Ottieni maggiori informazioni sulla governance e sulla condivisione dei dati su Databricks
- Databricks Unity Catalog
- Databricks Delta Sharing