Differenze fra l'analisi di dati e di Big Data
Prima dell'invenzione di Hadoop, le tecnologie alla base dei moderni sistemi di storage e calcolo erano relativamente semplici e, di conseguenza, le aziende si dovevano limitare prevalentemente all'analisi di piccole quantità di dati. Inoltre, anche queste analisi primitive potevano risultare difficili, specialmente quando si dovevano aggiungere nuove sorgenti di dati. Nell'analisi di dati tradizionale, che fa affidamento su database relazionali (come i database SQL), composti da tabelle di dati strutturati, ogni singolo byte di dati grezzi deve essere formattato in un modo specifico prima di poter essere inserito nel database per essere analizzato. Questo processo spesso lungo, comunemente noto come Extract, Transform, Load (ETL), è necessario per ogni nuova sorgente di dati. Il problema principale di questo processo in tre fasi è che richiede tempi incredibilmente lunghi e molta manodopera, a volte occupando data scientist e data engineer per periodi fino a 18 mesi per implementazioni o modifiche. Una volta che i dati venivano inseriti nel database, nella maggior parte dei casi gli analisti faticavano comunque a effettuare interrogazioni e analisi. Poi sono arrivati Internet, l'e-commerce, i social media, i dispositivi mobili, l'automazione del marketing, l'Internet of Things (IoT) ecc., e le dimensioni, il volume e la complessità dei dati grezzi sono diventati ingestibili per chiunque, tranne per poche organizzazioni.
Che cos'è l'analisi dei Big Data?
Per analisi dei Big Data si intende il processo, spesso complesso, con cui si esaminano set di dati grandi e variegati (detti appunto Big Data), generati dalle sorgenti più svariate, come commercio elettronico, dispositivi mobili, social media e Internet of Things (IoT). Questo processo richiede di integrare diverse sorgenti di dati, trasformare dati non strutturati in dati strutturati e ricavare informazioni dettagliate dai dati utilizzando strumenti e tecniche specifiche che estendono l'elaborazione dei dati a un'intera rete. La quantità di dati digitali oggi disponibile cresce a ritmi vertiginosi, raddoppiando ogni due anni. L'analisi dei Big Data è la soluzione che introduce un approccio diverso alla gestione e all'analisi di tutte queste sorgenti di dati. In linea generale valgono ancora i principi dell'analisi dei dati tradizionale, ma l'entità e la complessità dell'analisi dei Big Data ha richiesto lo sviluppo di nuove modalità per immagazzinare ed elaborare petabyte di dati strutturati e non. La richiesta di velocità superiori e di una maggiore capacità di storage ha creato un "vuoto tecnologico" che è stato presto colmato da nuovi metodi di storage, come data warehouse e data lake, e database non relazionali come NoSQL, oltre a tecnologie e framework per l'elaborazione e la gestione dei dati come le soluzioni open-source Apache Hadoop, Spark e Hive. L'analisi dei Big Data sfrutta tecniche avanzate per analizzare set di dati veramente grandi che comprendono dati strutturati, semi-strutturati e non strutturati, provenienti da varie sorgenti, e in quantità variabili da terabyte a zettabyte.
Le tipologie di dati più frequenti nell'analisi dei Big Data sono:
- Dati dal web. Dati provenienti dal web relativi ai comportamenti dei clienti, quali visite, visualizzazioni di pagine, ricerche, acquisti ecc.
- Dati testuali. I dati generati da sorgenti testuali come posta elettronica, notizie e articoli, feed di Facebook, documenti Word e altro ancora sono tra le tipologie di dati non strutturati più voluminose e diffuse.
- Ora e luogo, o dati geospaziali. GPS e telefoni cellulari, oltre alle connessioni Wi-Fi, rappresentano una fonte crescente di dati interessanti grazie alla capacità di raccogliere dati su orari e luoghi. Questi dati possono comprendere anche dettagli geografici relativi a strade, edifici, laghi, indirizzi, persone, luoghi di lavoro e itinerari di viaggio, generati da sistemi GIS.
- Dati in tempo reale. Le sorgenti di dati in tempo reale forniscono dati in streaming o basati su eventi.
- Dati provenienti dalla rete intelligente o da sensori. I sensori installati su autoveicoli, oleodotti, turbine eoliche e altro ancora raccolgono spesso dati con una frequenza molto elevata.
- Dati dei social network. La quantità di testi non strutturati (commenti, mi piace ecc.) provenienti da social network come Facebook, LinkedIn, Instagram ecc. cresce continuamente. È possibile persino analizzare i link per conoscere tutta la "rete sociale" di un determinato utente.
- Dati collegati: i dati di questo tipo vengono raccolti utilizzando tecnologie web standard come HTTP, RDF, SPARQL e indirizzi URL.
- Dati di rete. Sono i dati relativi a grandi social network come Facebook e Twitter, o reti tecnologiche come Internet, le reti telefoniche e le reti di trasporti.
L'analisi dei Big Data consente alle organizzazioni di sfruttare i loro dati e tecniche e metodologie avanzate di data science, come l'elaborazione del linguaggio naturale (NPL), il deep learning e il machine learning, scoprendo schemi nascosti, correlazioni ignote, tendenze di mercato e preferenze dei clienti, per individuare nuove opportunità e prendere decisioni più informate.
I vantaggi dell'analisi dei Big Data comprendono:
- Riduzione dei costi. Tecnologie di cloud computing e storage, come Amazon Web Services (AWS) e Microsoft Azure, così come Apache Hadoop, Spark e Hive, possono aiutare le aziende a diminuire i costi per lo stoccaggio e l'elaborazione di set di dati voluminosi.
- Processi decisionali migliorati. Grazie alla velocità di Spark e all'analisi in memoria, unite alla capacità di analizzare velocemente nuove sorgenti di dati, le imprese possono generare informazioni immediate e fruibili per prendere decisioni in tempo reale.
- Nuovi prodotti e servizi. Con l'ausilio di strumenti per l'analisi dei Big Data, le aziende possono analizzare le esigenze dei clienti in modo più preciso e fornire più facilmente ai clienti ciò che chiedono in termini di prodotti e servizi.
- Rilevamento di frodi. L'analisi dei Big Data viene utilizzata anche per prevenire le frodi, soprattutto nel settore dei servizi finanziari, ma va acquisendo crescente importanza in tutti i settori.