Passa al contenuto principale

Data mesh

Data mesh

I dati sono una risorsa fondamentale per le imprese, rappresentando la materia prima per l'innovazione e il progresso. La loro importanza è cresciuta con l'evoluzione delle aziende verso un modello sempre più orientato ai dati e alle decisioni, generando sfide significative per le organizzazioni che cercano di stare al passo. I data lake e i data warehouse legacy amplificano il problema, creando silos, riducendo la visibilità dei dati e rendendo l'elaborazione dei dati lenta e complicata. Questi ostacoli e colli di bottiglia frenano la collaborazione e lasciano inutilizzate preziose risorse informative. Per massimizzare il valore dei dati, le aziende hanno bisogno di una nuova architettura dei dati. La moderna architettura del data mesh è la risposta a questi problemi.

Che cos'è un data mesh?

Il data mesh è un'architettura organizzativa per gestire i dati su larga scala ed estrarne il massimo valore possibile.

Il principio fondamentale del data mesh è la decentralizzazione. I dati sono di proprietà di diversi domini aziendali e gestiti da essi in modo indipendente, invece di essere controllati centralmente da un unico team per l'intera organizzazione. Tuttavia, le regole di governance sono centralizzate, garantendo così l'interoperabilità, la sicurezza e la coerenza semantica dei dati.

I responsabili dei dati di dominio sono incaricati sia di fornire prodotti di dati di alta qualità, sia di proteggere i loro dati. Poiché si occupano esclusivamente dei dati del proprio dominio e non di quelli dell'intera organizzazione, possono offrire dati più rilevanti in modo rapido ed efficiente, mantenendo al contempo elevati standard di governance.

I principi del data mesh bilanciano l'autonomia aziendale con l'interoperabilità globale. Questa architettura riduce la dipendenza dai team centralizzati, evita la creazione di silos di dati e promuove un ambiente collaborativo in cui i team possono co-creare e condividere prodotti di dati che generano valore aziendale per l'organizzazione.

Ecco altre informazioni utili

Principi dell'architettura data mesh

Un'architettura logica di data mesh poggia su quattro principi:

  1. Proprietà del dominio: il data mesh utilizza un'architettura distribuita in cui i team di dominio mantengono piena responsabilità e autonomia sui propri dati durante tutto il loro ciclo di vita. Questi team di dominio sono composti da diversi dipartimenti o funzioni all'interno di un'organizzazione, come ad esempio i settori vendite o contabilità, ciascuno dei quali produce i propri dati. La proprietà del dominio garantisce che i dati siano gestiti dagli utenti che li conoscono meglio.
  2. Dati come prodotto: i dati vengono trattati come un prodotto e team e dipartimenti all'interno dell'organizzazione sono considerati clienti. L'organizzazione applica i principi della gestione del prodotto al ciclo di vita dell'analisi dei dati, garantendo che i consumatori di dati ricevano dati di qualità. I prodotti di dati devono essere individuabili, affidabili, autodescrittivi, indirizzabili e interoperabili. Oltre a dati e metadati, possono includere codice, dashboard, funzionalità, modelli e altre risorse necessarie per crearli e mantenerli.
  3. Piattaforma infrastrutturale self-service: sebbene i team di dominio gestiscano i propri prodotti di dati, l'organizzazione utilizza una piattaforma armonizzata e automatizzata per creare, eseguire e mantenere prodotti di dati interoperabili. Fornire strumenti standard all'interno di una piattaforma self-service consente di scalare l'architettura data mesh.
  4. Governance federata: questo principio garantisce una governance dei dati centralizzata e coerente tra i vari domini. La conformità viene monitorata e gestita centralmente tramite un catalogo dati, strumenti di governance dei dati e l'applicazione automatizzata delle policy. Ciò assicura un ecosistema di dati che rispetta le regole aziendali e le normative del settore.

Vantaggi del data mesh

Tradizionalmente, le organizzazioni si affidano a un team centralizzato per gestire i dati (compresa la loro archiviazione, formattazione e analisi) in tutta l'azienda. Questo approccio garantisce una gestione e una governance dei dati coerenti, ma crea anche colli di bottiglia. Spesso, i team cercano di aggirare questa centralizzazione creando involontariamente silos, che accelerano le decisioni sui dati ma impediscono agli utenti di accedere a informazioni pertinenti e accurate in modo tempestivo. Inoltre, i team centralizzati di dati e AI spesso hanno una comprensione limitata del contesto specifico dei set di dati di dominio, perdendo così opportunità per sviluppare prodotti di dati significativi.

Con l'aumento del volume e del valore dei dati, questi team faticano sempre più a stare al passo con la domanda, rischiando di essere sopraffatti. Questo ostacola l'accesso degli utenti aziendali ai dati e limita la capacità dell'organizzazione di sfruttarne pienamente il potenziale.

In un data mesh, la gestione dei dati è decentralizzata e affidata agli esperti di dominio, che conoscono a fondo i dati con cui lavorano. Questo approccio offre diversi vantaggi:

  • Velocità e semplicità: gli utenti possono accedere più rapidamente ai dati giusti, rivolgendosi direttamente ai responsabili di dominio per richieste, modifiche e approvazioni.
  • Prodotti di dati di alta qualità: i responsabili dei dati di dominio creano prodotti più pertinenti e di qualità superiore che apportano valore agli utenti aziendali.
  • Visibilità migliorata: sebbene la gestione e l'accesso siano decentralizzati, tutti i dati vengono registrati e governati centralmente, il che evita la creazione di silos e rende i dati più facili da trovare.
  • Efficienza in termini di costi e prestazioni: l'architettura dati distribuita favorisce l'adozione dello streaming di dati in tempo reale e migliora la visibilità sull'allocazione e l'archiviazione delle risorse, permettendo maggiore efficienza, migliore pianificazione finanziaria e costi inferiori.
  • Governance più solida: le politiche di sicurezza e conformità federate vengono applicate sia all'interno dei domini, sia tra di essi. Monitoraggio e auditing sono centralizzati per garantire il costante rispetto delle normative.

Componenti fondamentali del data mesh

Per creare un data mesh, le organizzazioni devono disporre di alcuni elementi chiave, tra cui:

  • Una strategia completa per i prodotti di dati che definisca standard e processi comuni (come un modello globale per i contratti dei prodotti di dati, una piattaforma di pubblicazione per l'individuazione dei dati e processi e autorità di governance centralizzati) e che offra un'esperienza self-service agli utenti.
  • Una piattaforma armonizzata in cui i dati siano disponibili e pronti per diversi tipi di carichi di lavoro analitici, come ad esempio una piattaforma di data intelligence.
  • Una piattaforma flessibile che garantisca la collaborazione tra diverse figure professionali nel settore dei dati, assicuri la qualità dei dati e faciliti interoperabilità e produttività in tutti i carichi di lavoro di dati e AI.
  • Servizi di governance dei dati centralizzati per la gestione degli accessi e la catalogazione dei dati, così da facilitare la collaborazione tra domini e l'analisi self-service.
  • Un livello di condivisione federato che permetta la condivisione fluida dei dati tra i domini.
  • Per molte organizzazioni, è inoltre essenziale considerare come condividere i dati in modo sicuro con entità esterne.

Adottare un data mesh con la Databricks Data Intelligence Platform

La Databricks Data Intelligence Platform offre una base tecnologica per le organizzazioni che desiderano adottare un'architettura data mesh e modernizzare il loro approccio alla gestione dei dati. Databricks è una piattaforma per dati, analisi e AI nativa del cloud che combina le prestazioni e le funzionalità di un data warehouse con la flessibilità, scalabilità e convenienza economica di un moderno data lake. La sua architettura aperta offre flessibilità nel modo in cui i dati sono organizzati e strutturati, fornendo al contempo un'infrastruttura di gestione unificata per tutti i carichi di lavoro di dati e analisi.

La Databricks Platform è organizzata in unità chiamate workspace che supportano un data mesh basato sui domini. Databricks supporta più workspace, ciascuno corrispondente a uno o più domini, che vengono gestiti localmente e fungono da centri di collaborazione. All'interno di ogni workspace, i domini possono gestire i propri prodotti di dati attraverso un'infrastruttura self-service a livello aziendale.

Databricks fornisce strumenti per la gestione e l'elaborazione dei dati durante tutto il loro ciclo di vita, supportando sia l'elaborazione in batch che quella in streaming. Ciò consente agli utenti di creare e gestire prodotti dati in modo più efficiente. Inoltre, può unificare i formati di archiviazione delle tabelle in modo che ogni dominio possa utilizzare il suo formato preferito, pur mantenendo un approccio coerente alla gestione dei dati e dei metadati.

Unity Catalog di Databricks, l'unica soluzione di governance unificata e aperta del settore per dati e AI, è fondamentale per un'architettura data mesh. Unity Catalog consente una gestione centralizzata integrando governance, sicurezza, gestione degli utenti e metadati tra i diversi workspace. Offre funzionalità di catalogazione dei dati, come rilevabilità e tracciabilità delle origini dei dati, e l'applicazione di controlli di accesso granulari e registri di audit. La sicurezza e i controlli di accesso vengono gestiti una sola volta, semplificando la governance dei dati. Unity Catalog organizza i dati in cataloghi, consentendo una gestione specifica per dominio dei prodotti di dati.

Inoltre, Databricks offre funzionalità di condivisione dei dati interoperabile di livello aziendale per supportare la collaborazione tra domini interni ed esterni. Delta Sharing consente alle organizzazioni di condividere dati in modo sicuro senza la necessità di duplicarli, indipendentemente dalla piattaforma di calcolo o dalla regione cloud. Delta Sharing rappresenta la base per una vasta gamma di attività di condivisione esterna dei dati, incluse la pubblicazione o l'acquisizione tramite un marketplace di dati.

Grazie a Unity Catalog e Delta Sharing, Databricks offre alle organizzazioni la flessibilità necessaria per organizzare e gestire dati e analisi su larga scala. I dati possono essere strutturati secondo un'architettura data mesh o multi-tenant, supportando soluzioni di gestione dei dati sia centralizzate che distribuite.

L'architettura data mesh offre alle aziende un nuovo approccio per sfruttare appieno il valore dei dati. Databricks fornisce una base aperta e scalabile per concretizzare questa visione, garantendo interoperabilità, convenienza economica, governance e semplicità.

    Torna al Glossario