Governance dei dati
Una guida completa ai processi, alle policy e alla tecnologia che le organizzazioni utilizzano per gestire e ottenere il massimo dai propri dati
Introduzione
Che cos'è la governance dei dati?
La governance dei dati è un approccio globale che comprende i principi, le pratiche e gli strumenti utilizzati per gestire le risorse di dati di un'organizzazione per tutto il loro ciclo di vita. Allineando i requisiti relativi ai dati alla strategia aziendale, la governance dei dati offre funzionalità superiori di gestione, qualità, visibilità, sicurezza e conformità dei dati a livello dell'intera organizzazione. L'implementazione di un'efficace strategia di governance dei dati consente alle aziende di renderli facilmente disponibili per il processo decisionale data-driven, salvaguardando al contempo i dati da accessi non autorizzati e garantendo la conformità ai requisiti normativi.
Ecco altre informazioni utili
Guida completa alla governance di dati e AI
Come costruire una strategia di governance efficace per il tuo lakehouse.
Databricks AI Security Framework (DASF)
Proteggi le tue iniziative di AI su qualsiasi piattaforma.
Il grande libro dell'ingegneria dei dati
Sviluppa rapidamente le tue competenze con questa guida essenziale all'era dell'AI.
Quali sono i vantaggi della governance dei dati per l'azienda?
La governance dei dati è essenziale per sbloccare il valore dei dati, una risorsa fondamentale per le organizzazioni. Implementando un approccio efficace alla governance dei dati, le aziende possono sfruttare i propri asset, ottenere un vantaggio competitivo e guadagnare e mantenere la fiducia dei clienti garantendo solide pratiche in materia di dati e privacy.
Maggiore efficienza operativa e costi ridotti
Una governance efficace consente alle organizzazioni di creare un'unica fonte di verità per i propri asset, prevenendo la dispersione e i silos di dati e riducendo la duplicazione. Ciò porta a una maggiore efficienza, a una riduzione dei costi e a una gestione più semplice dei concetti di sicurezza e governance in tutto il patrimonio di dati.
Aumento della produttività e accelerazione dei processi decisionali
La governance dei dati ne agevola la democratizzazione garantendone l'accuratezza, la coerenza e l'affidabilità. Aiuta gli utenti a individuare rapidamente dati di alta qualità, favorendo una migliore comprensione del significato e del contesto dei dati; ciò si traduce in un aumento della produttività e in processi decisionali più rapidi.
Collaborazione e creazione del valore migliorate
Un solido programma di governance dei dati getta le basi per una più proficua collaborazione e condivisione dei dati tra team, business unit e partner. Le organizzazioni possono così favorire la condivisione delle conoscenze e costruire una cultura dei dati ancora più solida, con il risultato di realizzare più innovazione, migliorare il processo decisionale e massimizzare il valore dei dati.
Sicurezza e privacy migliorate
La governance dei dati mitiga i rischi per la sicurezza e la privacy implementando controlli e procedure per prevenire l'accesso non autorizzato e l'uso improprio di dati sensibili. Promuove una cultura della fiducia e della trasparenza nei confronti degli stakeholder.
Migliore conformità alle normative e agli standard
Un'efficace governance dei dati si traduce in una migliore conformità ai requisiti normativi, come HIPAA, FedRAMP, GDPR o CCPA. Ciò protegge la reputazione dell'organizzazione, evita potenziali conseguenze finanziarie e legali e aumenta la fiducia degli stakeholder.
Elementi chiave della governance dei dati
Catalogazione dei dati
Una governance dei dati efficace richiede la conoscenza dei dati esistenti all'interno di un'organizzazione. È qui che entra in gioco il data catalog, un repository centralizzato dei metadati per gli asset di dati di un'organizzazione. Esso consente agli stakeholder di individuare, comprendere e accedere rapidamente ai dati di cui hanno bisogno, migliorando le attività relative ai dati come la scoperta, la governance e l'analisi. Un data catalog agisce come un indice ricercabile di tutti i dati disponibili, fornendo informazioni su formato, struttura, posizione e utilizzo, e dando così valore semantico a un mare di informazioni altrimenti non identificabili. L'integrazione di un data catalog in un programma di governance può aiutare le organizzazioni a migliorare la gestione dei dati, a potenziare la collaborazione, a ridurre la ridondanza e a garantire controlli di accesso adeguati e il recupero delle informazioni di audit.
Qualità dei dati
Nell'odierno mondo basato sui dati, garantire un'elevata qualità dei dati è fondamentale per ottenere analisi accurate, processi decisionali consapevoli ed efficienza dei costi. La qualità dei dati influisce direttamente sull'affidabilità delle decisioni data-driven ed è un aspetto chiave della governance. Per assicurare una governance dei dati efficace, le organizzazioni devono dare priorità alla valutazione di attributi chiave della qualità dei dati, quali l'accuratezza, la completezza, l'aggiornamento e la conformità alle regole di qualità. Una forte attenzione alla qualità dei dati è pertanto essenziale in qualsiasi strategia di governance, in quanto aiuta a tracciare la provenienza dei dati, ad applicare le regole che determinano la qualità dei dati e a tenere traccia delle modifiche. Non lasciare che la scarsa qualità dei dati comprometta le decisioni aziendali e l'allocazione delle risorse: dai la priorità alla qualità dei dati come parte fondamentale delle tue attività di governance dei dati per ottenere risultati migliori.
Classificazione dei dati
Elemento cruciale della governance, la classificazione dei dati comporta l'organizzazione e la categorizzazione dei dati in base alla loro sensibilità, valore e criticità. Con la crescita esponenziale dei dati, le aziende sono sempre più preoccupate di proteggere i dati sensibili, mitigare i rischi e garantire la qualità dei dati. La classificazione permette alle organizzazioni di identificare e classificare i dati in base al livello di rischio e all'importanza, consentendo loro di applicare misure e policy di sicurezza appropriate. Un solido sistema di classificazione dei dati migliora la governance dei dati, riduce i rischi e garantisce la qualità e la protezione dei dati su larga scala.
Sicurezza dei dati
Le organizzazioni sono consapevoli dell'importanza di garantire ai propri team accesso a dati di alta qualità per ottenere informazioni utili e produrre valore aziendale, dando priorità alla protezione dei dati sensibili contro gli accessi non autorizzati. Una gestione efficace dell'accesso ai dati è fondamentale per la sicurezza e la governance dei dati e un buon programma di governance della sicurezza dei dati dovrebbe includere controlli di accesso che definiscano quali gruppi o individui possono accedere a quali dati. Questi controlli possono essere molto specifici e spingersi fino al singolo record o file. Dal momento che violazioni dei dati e normative come il GDPR e il CCPA comportano un aumento dei rischi, le aziende devono stabilire politiche di governance chiare che definiscano chi può accedere ai set di dati sensibili e come tenere traccia di eventuali abusi. Oltre a eliminare la possibilità di accessi non autorizzati a informazioni private o sensibili, l'implementazione di strategie efficaci di gestione degli accessi è essenziale per proteggere i dati e conservare la fiducia dei clienti.
Audit dei diritti sui dati e degli accessi
L'efficace controllo dell'accesso ai dati è un aspetto critico della governance dei dati e dei programmi di governance della sicurezza, in particolare nei settori regolamentati. Sapendo chi ha accesso a quali dati e monitorando gli accessi recenti, le organizzazioni possono identificare in modo proattivo gli utenti o i gruppi con autorizzazioni eccessive e regolare il loro accesso di conseguenza, riducendo al minimo il rischio di uso improprio dei dati. Senza adeguati meccanismi di audit, un'organizzazione potrebbe non essere pienamente consapevole della propria superficie di rischio, rendendosi così vulnerabile a violazioni dei dati e non conformità normativa. Un team di audit ben strutturato all'interno di un'organizzazione di governance dei dati o della sicurezza svolge pertanto un ruolo chiave nel garantire la sicurezza dei dati e la conformità a normative come GDPR e CCPA. Implementando efficaci strategie di controllo dell'accesso ai dati, le organizzazioni possono conservare la fiducia dei clienti e proteggere i propri dati da accessi non autorizzati o usi impropri.
Provenienza dei dati
La provenienza dei dati è un potente strumento che aiuta le organizzazioni a garantire la qualità e l'affidabilità dei dati fornendo loro una migliore comprensione delle sorgenti di dati e del loro utilizzo a valle. Il processo acquisisce metadati ed eventi rilevanti durante l'intero ciclo di vita dei dati, fornendo una visione end-to-end del flusso dei dati all'interno del patrimonio informativo dell'organizzazione. Come pilastro essenziale di una strategia pragmatica di governance dei dati, la provenienza dei dati consente alle organizzazioni di diventare conformi e pronte per l'audit, riducendo al contempo il sovraccarico operativo della creazione manuale di un percorso di verifica e fornendo fonti affidabili per i report di audit. Inoltre, il tracciamento della provenienza permette ai consumatori di dati di eseguire analisi migliori, e aiuta i team di dati a eseguire l'analisi delle cause principali di eventuali errori, riducendo significativamente i tempi di debug.
Individuazione dei dati
Via via che le organizzazioni continuano a raccogliere enormi quantità di dati da fonti diverse, diventa sempre più importante rendere questi dati facilmente individuabili per casi d'uso di analisi, AI o ML, passaggio fondamentale per accelerare la democratizzazione dei dati e sbloccarne il vero valore. Inoltre, con l'emergere di moderne risorse di dati come dashboard, modelli di machine learning, query, librerie e notebook, la data discovery è diventata un pilastro fondamentale di una solida strategia di governance. Le organizzazioni dovrebbero considerare l'individuazione dei dati come un aspetto fondamentale della loro strategia di governance. Essa consente ai team di dati di individuare facilmente le risorse di dati all'interno dell'organizzazione, di collaborare su vari progetti e di innovare in modo rapido ed efficiente, aiutando anche a evitare la duplicazione dei dati, che può risultare problematica. Rendere i dati persistenti ha infatti un costo e può portare a problemi di governance a diversi livelli di sicurezza.
Condivisione dei dati e collaborazione
La condivisione dei dati e la collaborazione sono componenti vitali nell'ambiente aziendale odierno, in cui le organizzazioni scambiano dati con team interni, partner esterni e clienti su una pluralità di cloud, piattaforme di dati e regioni. Poiché la domanda di dati esterni continua a crescere, è fondamentale che le organizzazioni possano scambiare dati in modo sicuro, mantenendo il controllo e la visibilità su come vengono utilizzate le informazioni sensibili. Le camere bianche dei dati svolgono un ruolo centrale nella collaborazione sicura e controllata sui dati, garantendo il rispetto delle normative sulla privacy. È essenziale che le organizzazioni investano in tecnologie di data sharing in formato aperto, interoperabili e multicloud per soddisfare le loro esigenze di innovazione guidata dai dati. Inoltre, i marketplace di dati fungono da ponte tra fornitori e consumatori di dati, facilitando l'individuazione e la distribuzione di set di dati. Pertanto, è fondamentale ripensare la condivisione dei dati come una necessità aziendale e un pilastro imprescindibile di una solida strategia di governance dei dati.
Quali requisiti deve avere una buona soluzione di governance dei dati?
Le organizzazioni "data-forward" si affidano prioritariamente a dati, analisi e AI per promuovere i risultati di business auspicati e sviluppano le loro strategie dei dati attorno a un'architettura data lakehouse, che unifica dati, analisi e AI su un'unica piattaforma. Questa architettura combina le migliori funzionalità dei data warehouse e dei data lake per gestire tutti i casi d'uso di dati, analisi e AI. Tutti i dati sono memorizzati in un data lake su cloud e gestiti da un livello unificato, il che consente di eseguire le analisi direttamente su una singola copia dei dati. Questo approccio semplifica governance e sicurezza dei dati, riduce i silos funzionali e facilita la collaborazione. Trasmettendo un'elevata fiducia nei dati, le organizzazioni possono operare con sicurezza e comprendere meglio come i dati vengono acquisiti, modificati, utilizzati e influenzati in ogni carico di lavoro analitico.
Una soluzione di governance dei dati per un data lakehouse fornisce una serie di funzionalità chiave:
- Data catalog centralizzato: un data catalog centralizzato conserva tutti i dati, i modelli di ML e gli artefatti analitici, nonché i metadati per ogni oggetto di dati. Il catalogo unificato integra anche i dati provenienti da altri cataloghi, come ad esempio un Hive metastore esistente.
- Controlli di accesso ai dati unificati: un singolo modello di autorizzazione unificato per tutti gli asset e tutti i cloud di dati, incluso il controllo dell'accesso basato su attributi (ABAC) per le informazioni di identificazione personale (PII).
- Audit dei dati: l'accesso ai dati è controllato a livello centrale con avvisi e funzionalità di monitoraggio per promuovere la responsabilizzazione e la sicurezza.
- Gestione della qualità dei dati: robusta gestione della qualità dei dati con funzioni integrate di controllo qualità, test, monitoraggio e verifica per garantire la disponibilità di dati accurati e utili.
- Provenienza dei dati: tracciamento della provenienza dei dati per ottenere visibilità end-to-end su come i dati fluiscono nel lakehouse, dalla fonte all'utente finale, fino a livello di colonna.
- Individuazione dei dati: facile individuazione dei dati per consentire a data scientist, analisti, data engineer e stakeholder di scoprire e consultare rapidamente i dati rilevanti e accelerare il time to value.
- Condivisione dei dati e collaborazione: i dati possono essere condivisi, con controlli granulari degli accessi, tra cloud, regioni e piattaforme diversi, evitando la formazione di silos.
- Camere bianche per una collaborazione nel rispetto della privacy: collabora su dati sensibili con stakeholder interni o esterni in un ambiente che salvaguarda la privacy
- Marketplace aperto per dati, analisi e AI: individua, accedi e distribuisci set di dati e risorse per AI e analisi (come modelli di ML, notebook, applicazioni e dashboard), senza dipendere da piattaforme proprietarie, processi ETL complicati o repliche costose.
Chi supervisiona la governance dei dati?
Chief Data Officer
Il Chief Data Officer (CDO) è il dirigente più anziano del team di governance. Sostanzialmente, è la persona responsabile della sicurezza, dell'accessibilità e dell'usabilità dei dati.
Il CDO ha il compito di configurare il sistema, ottenere i finanziamenti e il personale necessari per il suo funzionamento (e per aspetti correlati come gli strumenti per automatizzare alcuni processi) ed eseguire controlli regolari sul suo stato generale.
Proprietari dei dati
I proprietari dei dati sono individui o team responsabili dell'amministrazione tecnica dei set di dati. Possono decidere quali membri del team debbano avere accesso a quali tipi di informazioni. In caso di violazione dei dati dovuta alle policy da essi applicate (o alla loro mancanza), potrebbero essere chiamati a risponderne.
Per ottemperare a questo ruolo e alle numerose responsabilità che comporta, i proprietari dei dati sono in genere scelti tra i membri senior dell'organizzazione.
Data steward
Per assisterli nella gestione quotidiana dei flussi di lavoro della governance dei dati, i proprietari dei dati e i CDO nominano dei data steward. Il loro ruolo consiste essenzialmente nell'implementare il programma che è stato stabilito per loro e nel garantire che i dati, sia vecchi che nuovi, vengano gestiti in modo appropriato. Sono responsabili del monitoraggio della conformità sia dei dipendenti che dei clienti e della segnalazione di eventuali problemi.
Comitato per la governance dei dati
È l'organo principale incaricato di creare le policy pertinenti nell'organizzazione.
Spesso è formato da senior executive e proprietari di dati, che hanno un vivo interesse per la sicurezza e l'usabilità dei dati. Una volta che le sue policy sono state approvate, il comitato può stabilire le procedure che gli steward devono seguire e anche risolvere eventuali controversie tra le parti.
Qual è la differenza tra gestione dei dati e governance dei dati?
Una gestione e una governance dei dati efficaci sono fondamentali per qualsiasi organizzazione che gestisca i dati. Nonostante i termini "gestione" e "governance" siano spesso usati in modo intercambiabile, i concetti ai quali si riferiscono sono sostanzialmente diversi. La gestione dei dati si concentra sugli aspetti tecnici della gestione del ciclo di vita dei dati, come l'inserimento, l'integrazione, l'organizzazione, la trasformazione e la persistenza dei dati, ivi incluse le operazioni di backup, recupero e archiviazione. La governance dei dati riguarda invece la definizione di policy, framework e strumenti organizzativi volti a garantire che i requisiti relativi ai dati siano allineati con la strategia aziendale. Ciò include l'accuratezza e la coerenza dei dati, la loro conformità alle normative e alle policy organizzative interne, nonché la qualità, la sicurezza, la privacy e l'auditing dei dati e la gestione del rischio. La governance dei dati implica inoltre la definizione della proprietà dei dati, dei ruoli e delle responsabilità, e l'applicazione di policy e procedure in tutta l'organizzazione. La governance è uno dei pilastri fondamentali di una strategia dei dati a lungo termine che sfrutta i dati come risorsa strategica, mentre la gestione dei dati si occupa degli aspetti operativi legati alla realizzazione di tale strategia.