Passa al contenuto principale

Data mart

Prova Databricks gratis

Che cos'è un data mart?

Un data mart è un database curato che include una serie di tabelle progettate per soddisfare le esigenze specifiche di un singolo team di dati, di una community o di una particolare unità aziendale, come il reparto marketing o quello di ingegneria. Di solito è più piccolo e mirato di un data warehouse ed è un sottoinsieme del più ampio data warehouse aziendale di un'organizzazione. I data mart sono comunemente utilizzati per analisi, business intelligence e reportistica e sono stati il primo passo evolutivo nella realtà fisica dei data warehouse centrali e dei data lake. All'inizio degli anni '70, ACNielsen ha offerto ai propri clienti il primo data mart per consentire loro di archiviare le informazioni in formato digitale e di incrementare le vendite.

Caratteristiche dei data mart

  • I data mart sono in genere costruiti e gestiti dal team dati dell'azienda, anche se gli stessi compiti possono essere svolti dagli esperti delle diverse unità aziendali.
  • I data steward dei gruppi aziendali si occupano della manutenzione del data mart, mentre gli utenti finali hanno un accesso di sola lettura: possono interrogare e visualizzare le tabelle, ma non modificarle, onde evitare che gli utenti meno esperti cancellino o modifichino accidentalmente dati aziendali critici.
  • Utilizza in genere un modello dimensionale e uno schema a stella.
  • Contiene un sottoinsieme curato di dati provenienti dal più ampio data warehouse. I dati sono altamente strutturati e sono stati ripuliti e resi conformi dal team dati dell'azienda per renderli facili da comprendere e da interrogare.
  • È progettato in base alle esigenze specifiche di una particolare unità aziendale o di un particolare caso d'uso.
  • Gli utenti solitamente interrogano i dati utilizzando comandi SQL.

Tipi di data mart: data mart indipendenti, dipendenti e ibridi

Oggi esistono tre tipi principali di data mart:

  • I data mart indipendenti non fanno parte di un data warehouse e sono molto simili al data mart originale offerto da ACNielsen. In genere si concentrano su un settore di attività o su un'area tematica e le sorgenti di dati possono includere sia fonti esterne che interne. I dati vengono tradotti, elaborati e caricati nel data mart, dove vengono conservati fino al momento del bisogno.
  • I data mart dipendenti sono integrati in un data warehouse esistente. Viene utilizzato un approccio dall'alto verso il basso, che supporta l'archiviazione di tutti i dati in un'unica posizione centrale, poi una sezione di dati ben definita viene selezionata per finalità di ricerca.
  • I data mart ibridi combinano i dati presi da un data warehouse con dati provenienti da altre fonti. Ciò può essere utile in diverse situazioni, ad esempio per l'integrazione ad hoc con un nuovo gruppo o prodotto aggiunto a un'organizzazione. I data mart ibridi si adattano bene a più ambienti di database e garantiscono tempi di implementazione rapidi, facilitano la pulizia dei dati e funzionano bene con le piccole applicazioni incentrate sui dati.

Vantaggi dei data mart

  • Un'unica fonte di verità. Il data mart può fungere da unica fonte di verità per una particolare linea di business, in modo che tutti lavorino sulla base degli stessi fatti e dati.
  • Semplicità. Gli utenti aziendali alla ricerca di dati possono visitare il data mart curato per accedere facilmente ai dati di loro interesse, invece di dover esplorare l'intero data warehouse aziendale e unire tabelle per ottenere i dati di cui hanno bisogno.

Limiti dei data mart

I data warehouse aziendali vengono creati con le migliori intenzioni per soddisfare tutte le esigenze di gestione dei dati di un'azienda. Ma inevitabilmente ogni unità aziendale ha esigenze e obiettivi diversi in materia di dati e non è possibile accontentare tutti. Così i reparti copiano e creano i propri data mart (a volte con l'aiuto dell'IT aziendale) con l'obiettivo di accrescere l'area tematica di un particolare data warehouse, per soddisfare esigenze di analisi self-service e di reporting dipartimentale. Di conseguenza, con il passare del tempo, i data mart possono diventare, da una prospettiva aziendale, dei silos e delle copie shadow di dati, pur rispondendo in maniera adeguata alle esigenze del reparto. Se molti reparti adottano questa strategia, non esiste più un'unica fonte di verità.

Come Lakehouse risolve i problemi dei data mart

Lakehouse risolve i problemi sopra menzionati mettendo tutti i data warehouse e i data mart aziendali su un'unica piattaforma, con sicurezza e governance unificate, ma lasciando ai diversi team la flessibilità di avere i propri ambienti di prova. Poiché ogni data mart o "copia aumentata" è realizzata sulla stessa piattaforma Lakehouse di tutte le altre, il catalogo di dati di Lakehouse la rileva e, date le regole di governance dei dati, come il tagging e l'uso di un dizionario dei dati, si assicura che la copia aumentata sia visibile a tutti, evitando il rischio di ulteriori duplicazioni.

Costruisci il tuo prossimo data mart su Databricks SQL

Prova Databricks SQL gratuitamente

Risorse

    Torna al Glossario
    Glossary-Overview-Sidebar

    Scoprite cosa sta determinando il modello Lakehouse.

    REGISTRAZIONE ORA