Set di dati
Che cos'è un set di dati?
Un set di dati è una raccolta strutturata di dati organizzati e archiviati per l'analisi o l'elaborazione. I dati di un set sono tipicamente correlati in qualche modo e provengono da un'unica fonte o sono destinati a un unico progetto. Ad esempio, un set può contenere una raccolta di dati aziendali (volumi di vendite, informazioni di contatto dei clienti, transazioni, ecc.) Un set può includere diversi tipi di dati, come valori numerici, testi, immagini o registrazioni audio. I dati all'interno di un set possono essere consultati singolarmente, in combinazione o gestiti come un'unica entità.
I set di dati sono uno strumento fondamentale nell'analisi e nel machine learning (ML) e forniscono i dati da cui l'analista ricava informazioni dettagliate e tendenze. Sono essenziali per il ML, perché la selezione del set di dati adatto per un progetto di ML è una delle fasi iniziali più importanti per l'efficace addestramento e implementazione di un modello di ML.
Ecco altre informazioni utili
The Big Book of Machine Learning Use Cases – 2nd Edition
La guida completa all'utilizzo del machine learning, con casi d'uso, esempi di codice e notebook.
Introduzione all'ETL
Leggi come funzionano le pipeline ETL con l'anteprima di questa guida O'Reilly.
Generative AI Fundamentals
Amplia la tua conoscenza dell'AI generativa, compresi i modelli LLM, partecipando a questo corso di formazione su richiesta.
Qual è la forma corretta, in inglese: data set o dataset?
C'è un dibattito sul termine dataset e se debba essere scritto come una sola parola o due parole distinte. Merriam-Webster la elenca come una singola parola, ma altre fonti, come Dictionary.com, utilizzano la forma data set. Databricks preferisce la grafia dataset.
Set di dati vs. database
Spesso si fa confusione anche tra i termini set di dati e database. Sebbene "database" e "set di dati" vengano entrambi utilizzati per descrivere l'organizzazione e la gestione dei dati, differiscono per diversi aspetti significativi:
come definito nella prima sezione, un set di dati è una raccolta di dati utilizzati per l'analisi e la modellazione e tipicamente organizzati in un formato strutturato. Il formato strutturato può essere un foglio Excel, un file CSV, un file JSON o altri formati. I dati di un set possono essere organizzati in vari modi e creati a partire da un'ampia varietà di sorgenti, come un sondaggio tra i clienti, un esperimento o un database esistente. Un set di dati può essere utilizzato per molti scopi, tra cui l'addestramento e il test di modelli di machine learning, la visualizzazione dei dati, la ricerca o l'analisi statistica. I set di dati possono essere condivisi pubblicamente o privatamente e solitamente hanno dimensioni inferiori rispetto a un database.
Un database è progettato per l'archiviazione e la gestione a lungo termine di grandi quantità di dati organizzati che vengono memorizzati elettronicamente. Diventa così facile accedere ai dati, manipolarli e aggiornarli. In altre parole, un database è una raccolta organizzata di dati che vengono memorizzati come molteplici set di dati. Esistono diversi tipi di database, ad esempio relazionali, di documenti e chiave-valore.
Quali sono alcuni esempi di set di dati?
Un set di dati potrebbe includere numeri, testi, immagini, registrazioni audio o anche semplici descrizioni di oggetti e può essere organizzato in varie forme, incluse tabelle e file. Ecco alcuni esempi:
- Un set di dati che include un elenco di tutte le vendite immobiliari in una specifica area geografica durante un determinato periodo di tempo.
- Un set di dati che contiene informazioni su tutte le cadute di meteoriti accertate.
- Un set di dati sulla qualità dell'aria in un'area specifica durante un determinato periodo di tempo.
- Un set di dati che include il tasso di frequenza degli studenti dalla scuola materna alla fine delle scuole superiori organizzato per gruppi e per circolo didattico durante l'anno scolastico 2021-2022.
Set di dati pubblici
I set di dati pubblici sono dati accessibili al pubblico organizzati intorno a un tema o a un argomento e sono particolarmente preziosi per i data scientist perché sono generalmente gratuiti e forniscono dati facilmente accessibili e scaricabili che possono essere utilizzati per addestrare i modelli di ML.
Per esempio, la National Oceanic and Atmospheric Administration(NOAA) fornisce dati su una varietà di parametri, dalla qualità dell'acqua ai cambiamenti climatici. I dati del sistema Automatic Dependent Surveillance (ADS-B) mostrano i movimenti degli aerei commerciali in tempo reale e la U.S. General Services Administration offre Data.gov, un portale che comprende più di 200.000 set di dati e centinaia di categorie.
Anche Databricks fornisce una serie di set di dati campione messi a disposizione da terzi che possono essere utilizzati in Databricks Workspace. L'utilizzo di tali set di dati in coordinamento con l'AI e il Machine Learning su Databricks consente ai team di ML di preparare ed elaborare i dati, ottimizzare la collaborazione tra i team e standardizzare l'intero ciclo di vita del ML, dalla sperimentazione alla produzione, anche per l'AI generativa e i modelli linguistici di grandi dimensioni.
Utilizzo dei set di dati
Esistono diversi modi per utilizzare i set di dati. Gli analisti li usano per esplorare e visualizzare i dati a scopo di Business Intelligence, i data scientist per addestrare i modelli di ML. Tuttavia, prima di poter essere utilizzati, i set di dati devono essere inseriti in un data lake o in un lakehouse utilizzando processi di ingegneria dei dati come Extract, Transform and Load (ETL). L'ETL consente ai tecnici di estrarre dati da diverse fonti, trasformarli in risorse fruibili e affidabili e caricarli in sistemi accessibili agli utenti finali, che li potranno utilizzare a valle per risolvere problemi aziendali.
Gestione, catalogazione e protezione dei set di dati
Prima di poter essere utilizzati, i set di dati devono essere catalogati, governati e conservati in modo sicuro con un sistema di governance. L'implementazione di una strategia di governance dei dati efficace consente alle organizzazioni di rendere i dati prontamente disponibili per il processo decisionale data-driven, salvaguardando al contempo i dati da accessi non autorizzati e garantendo la conformità ai requisiti normativi.
Per affrontare le sfide della governance dei dati, Databricks ha sviluppato Unity Catalog, una soluzione di governance unificata per i dati e gli asset di AI sul lakehouse. Con Unity Catalog, le organizzazioni possono gestire senza problemi dati strutturati e non strutturati, modelli di machine learning, notebook, dashboard e file su qualsiasi cloud o piattaforma. Data scientist, analisti e ingegneri possono utilizzare Unity Catalog per scoprire, accedere e collaborare in modo sicuro su dati affidabili e risorse di AI.
Condivisione dei set di dati
La maggior parte dei data scientist non vuole solo raccogliere e analizzare set di dati, ma anche condividerli. La condivisione dei dati incoraggia una collaborazione più stretta, che può portare a nuove scoperte significative. Delta Sharing è uno strumento open source integrato in Unity Catalog che consente a data scientist e analisti di condividere facilmente i dati e le risorse di AI tra cloud, regioni e piattaforme diverse per sbloccare nuovi flussi di entrate e generare valore in azienda senza ricorrere a formati proprietari, processi ETL complessi o costose repliche di dati.