Trasformazione dei dati
Cos'è la trasformazione dei dati?
La trasformazione consiste nel prendere i dati grezzi estratti da varie sorgenti e trasformarli in dataset utilizzabili. Le pipeline di dati spesso includono molteplici processi di trasformazione per convertire informazioni disorganizzate in dati puliti, di qualità e affidabili che possano essere utilizzati per soddisfare le esigenze operative dell'azienda e creare informazioni utili e dettagliate. Il processo di trasformazione è fondamentale nell'ingegneria dei dati.
Ecco altre informazioni utili
The Big Book of Data Engineering: 2a edizione
Scopri le più recenti indicazioni tecniche per la creazione di pipeline di dati in tempo reale.
Introduzione all'ETL
Leggi come funzionano le pipeline ETL con l'anteprima di questa guida O'Reilly.
Informazioni fondamentali sul Lakehouse
Aggiornati sull'architettura lakehouse partecipando a questo corso di formazione gratuito on-demand.
Perché la trasformazione dei dati è importante?
Il processo di trasformazione modifica i set di dati in modo che possano essere utilizzati dalle applicazioni di dati aziendali. È fondamentale per ricavare valore dai dati grezzi, generando informazioni dettagliate che possono essere utilizzate per prendere decisioni in azienda. La trasformazione fornisce alle organizzazioni i dati di cui hanno bisogno per comprendere meglio il passato, il presente e il futuro della loro attività e sfruttare le opportunità in modo agile.
Trasformazione dei dati ed ETL
La trasformazione dei dati è il cuore dell'ETL, acronimo di "extract, transform and load" (estrazione, trasformazione e caricamento). È il processo che i data engineer utilizzano per estrarre i dati da diverse fonti, trasformarli in risorse utilizzabili e affidabili e caricarli nei sistemi degli utenti finali, consentendo così a questi di accedere ai dati e di usarli per risolvere problemi aziendali. Nella fase di trasformazione i dati vengono puliti, mappati e trasformati, spesso secondo uno schema specifico.
Esempi di trasformazione dei dati
Per garantire la qualità e l'integrità dei dati si possono utilizzare diversi tipi di trasformazioni. Si va dalla deduplicazione, che aumenta qualità e prestazioni eliminando i "doppioni", alla raffinazione, che aumenta la qualità filtrando i dati irrilevanti, fino all'integrazione, in cui diversi tipi di dati vengono uniti nella stessa struttura. Per ulteriori tipi di trasformazioni e relative definizioni, consulta la sezione successiva.
Tipi di trasformazione dei dati
Il processo di trasformazione può essere realizzato con diverse tecniche, a seconda dei dati e dell'obiettivo finale. Alcuni esempi:
Bucketing/binning: suddivisione di una serie numerica in sottoinsiemi più piccoli ("bucket" o "bin"). Si effettua trasformando le caratteristiche numeriche in categoriali, utilizzando una serie di soglie.
Aggregazione: il processo di raccolta e presentazione dei dati in un formato riepilogativo più adatto al reporting e alla visualizzazione. L'aggregazione può essere ottenuta mediante diversi metodi, come la somma, la media o la mediana dei valori nel tempo, nello spazio o in altre dimensioni.
Pulizia: il processo che aumenta accuratezza e qualità dei dati tramite l'eliminazione di informazioni imprecise, incomplete o non aggiornate.
Deduplicazione: il processo di compressione in cui le copie duplicate dei dati vengono identificate e rimosse per rendere più veloce il trasferimento.
Derivazione: la creazione di regole per estrarre dalla sorgente di dati solo le informazioni richieste.
Arricchimento: un processo per migliorare i dati esistenti utilizzando sorgenti esterne per espandere un campo o integrare quelli mancanti.
Filtraggio: raffinare i dati per eliminare quelli irrilevanti così da visualizzare solo le informazioni necessarie.
Integrazione: unire tipi di dati diversi nella stessa struttura. L'integrazione standardizza i dati eterogenei in modo che possano essere analizzati nel loro insieme.
Unificazione: un'operazione che unisce in un singolo set di dati più tabelle di database che utilizzano un campo di dati comune.
Suddivisione: la divisione di una singola colonna in più colonne per l'analisi. Questo processo può essere utile per analizzare grandi quantità di dati raccolti nel tempo.
Riepilogo: un tipo di aggregazione dei dati in cui vengono create diverse metriche aziendali calcolando i totali dei valori.
Convalida: un processo che garantisce la qualità dei dati creando regole automatiche che generano risposte a specifici problemi.
Revisione del formato: il processo di modifica del formato per risolvere problemi legati all'esistenza di campi contenenti tipi di dati diversi.
Ristrutturazione delle chiavi: il processo di sostituzione delle chiavi con significati integrati con altre generiche (numeri casuali che fanno riferimento alle informazioni del database di origine) per evitare rallentamenti nel sistema.
Ottimizzazione delle prestazioni nella trasformazione
La trasformazione dei dati può risultare dispendiosa in termini di tempo e risorse; ottimizzare le prestazioni del processo è pertanto fondamentale per ridurre i costi e risparmiare tempo. Le tecniche di ottimizzazione delle prestazioni includono:
- Compattazione
- Suddivisione
- Regolazione delle dimensioni dei file
- Skipping e potatura
- Caching
Per saperne di più sull'ottimizzazione delle prestazioni nella trasformazioni dei dati, consulta la nostra guida completa.
Strumenti per la trasformazione dei dati
La trasformazione è fondamentale per creare dati affidabili che le organizzazioni possono utilizzare per ricavare informazioni dettagliate. Tuttavia, la trasformazione e l'intero processo ETL presentano sfide impegnative: dalla costruzione e manutenzione di pipeline di dati affidabili, alla gestione della qualità in architetture di pipeline sempre più complesse. Gli strumenti di trasformazione snelliscono e democratizzano la trasformazione e semplificano il ciclo di vita dell'ETL.
Trasformazione dei dati su Data Intelligence Platform
Databricks offre strumenti essenziali per l'implementazione e l'orchestrazione di trasformazioni ed ETL sulla Data Intelligence Platform.
Delta Live Tables (DLT) aiuta i team di data engineer a creare e gestire facilmente sulla Data Intelligence Platform pipeline affidabili di dati batch e streaming che forniscono dati di alta qualità. DLT esegue test automatici sulla qualità, rende lo streaming più conveniente scalando automaticamente le risorse di calcolo e offre un'ampia panoramica per il monitoraggio e l'osservazione della pipeline.
Databricks Workflows è un servizio per l'orchestrazione completamente gestito che consente ai team di gestione di automatizzare e orchestrare meglio le pipeline di dati. Workflows permette di definire, gestire e monitorare facilmente flussi di lavoro multitasking per pipeline ETL, analisi e machine learning, aumentando la produttività. Workflows si integra perfettamente con dbt, uno strumento che consente a ciascun membro del team di gestione dei dati di contribuire in modo sicuro a pipeline di livello produttivo e rende le trasformazioni più rapide e sicure.