Il passaggio al cloud apre una nuova era del commercio al dettaglio guidato dai dati
Riduzione dei tempi di creazione della pipeline di dati
Caricamenti ETL più rapidi
Columbia è un'azienda guidata dai dati, che integra dati provenienti da tutte le linee di business per gestire le attività di commercio all'ingrosso e al dettaglio per tutti i propri marchi. La loro infrastruttura di ETL e analisi non era in grado di gestire casi d'uso in batch e in tempo reale su larga scala, impedendo di soddisfare le richieste dei team aziendali e di gestione dei dati. In seguito alla migrazione a Databricks, ora l'azienda è in grado di elaborare e preparare i dati in modo più efficiente e affidabile, ottenendo informazioni approfondite preziose per prendere decisioni più efficaci.
Sistemi di analisi costosi e lenti
Con la crescente digitalizzazione del commercio al dettaglio su tutti i canali, Columbia è all'avanguardia nell'utilizzo dei dati di tutte le linee di business per migliorare le vendite, gli acquisti, la supply chain e ottimizzare i prodotti. Ad esempio, l'azienda voleva capire come sfruttare informazioni legate a posizione geografica, affinità del marchio, margini lordi e costi, per migliorare le attività operative e prendere decisioni migliori. Oppure, come sfruttare i dati di coinvolgimento dei clienti, ricavati da recensioni e commenti, per alimentare le campagne di marketing e migliorare l'assistenza ai clienti stessi.
Con tonnellate di dati a disposizione, l'efficienza di elaborazione dei dati in batch e in tempo reale per l'analisi e la reportistica a valle non rispettava i livelli di servizio (SLA) fissati internamente. Ostacolato da strumenti ETL creati ad hoc e data warehouse isolati e difficili da espandere, il team aziendale di gestione delle informazioni (EIM) faticava a costruire in modo efficiente pipeline di dati in grado di fornire a diversi team e varie figure aziendali l'accesso a dati curati. Inoltre, l'infrastruttura era rigida e costosa da gestire ed espandere, causando problemi dovuti al continuo incremento del numero di persone che hanno necessità di accedere ai dati.
“I sistemi esistenti potevano impiegare settimane a estrarre, trasformare e caricare (ETL) i dati per la successiva analisi e reportistica”, spiega Lara Minor, senior enterprise data manager di Columbia Sportswear. “Di conseguenza, non eravamo in grado di supportare diversi casi d'uso, con un forte impatto sulla soddisfazione degli analisti e delle linee di business”.
Di fronte alla richiesta di svariati team, dalla dirigenza agli analisti, fino ai data scientist, di avere a disposizione dati in tutta l'azienda, i responsabili hanno capito che dovevano trasferire la piattaforma dei sistemi di analisi sul cloud, per aumentare l'agilità e l'efficienza dei costi. Serviva inoltre snellire le fasi di preparazione ed ETL dei dati, rendendo al tempo stesso più semplice e sicuro l'accesso ai dati necessari per prendere decisioni più efficaci.
Portare i dati a chi ne ha bisogno il più velocemente possibile
Il team EIM di Columbia ha deciso di passare a Microsoft Azure, aprendo le porte all'uso di Azure Databricks e Delta Lake, per aggiornare le funzionalità di elaborazione e analisi dei dati. “Cercavamo qualcosa che fosse scalabile, elastico e che costasse meno”, racconta Minor. “Azure e Databricks rispondevano a questi requisiti”.
Con Databricks, ora l'azienda può costruire pipeline ETL ad alte prestazioni che supportano carichi di lavoro in batch e in tempo reale. Le pipeline alimentano Delta Lake che offre un accesso sicuro a dati curati. “Delta Lake offre funzionalità ACID che semplificano le attività sulla pipeline dei dati, aumentando l'affidabilità della pipeline stessa e l'omogeneità dei dati," spiega Minor. "Al tempo stesso, funzionalità come la memorizzazione nella cache e l'autoindicizzazione offrono un accesso efficiente ai dati”.
Una volta acquisiti, i dati possono essere inviati a diverse destinazioni (endpoint) in tutta l'azienda, in base all'utente finale e al caso d'uso. Ad esempio, i business analyst si possono collegare direttamente a PowerBI per i report delle vendite che richiedono informazioni quasi in tempo reale su richiesta. Attraverso i notebook interattivi di Databricks, i dati diventano accessibili ai data scientist che devono esplorare e addestrare i modelli. Oppure possono essere inviati al data warehouse per casi d'uso con requisiti di bassa latenza e alta concomitanza. Qualunque sia il team che deve accedere ai dati, l'azienda ha la certezza che i dati sono affidabili e omogenei.
Pipeline di dati più veloci, informazioni in tempi più rapidi
Accorciare i tempi di elaborazione dei dati è fondamentale per fornire rapidamente informazioni ricavate dai dati stessi. Databricks ha aiutato il team EIM di Columbia ad accelerare i processi di preparazione ed ETL, ottenendo una riduzione del 70% dei tempi di creazione di pipeline ETL e, al tempo stesso, abbattendo i tempi di elaborazione dei carichi di lavoro da 4 ore a soli 5 minuti, cioè 48 volte in meno.
Con una piattaforma scalabile ad alte prestazioni che supporta meglio i carichi di lavoro in tempo reale, diversi utenti sono ora nelle condizioni di poter prendere decisioni più corrette che incidono positivamente sulle attività operative, senza dover dipendere eccessivamente dal team EIM.
“Uno dei vantaggi di questa piattaforma è la velocità con cui le persone possono arrivare a lavorare a pieno regime. Tutti i dati entrano nel sistema e sempre più reparti li utilizzano con una modalità self-service che in passato non era possibile”, afferma Minor. “Non esistono parole adeguate per descrivere l'impatto positivo di Databricks su Columbia”.
Con dati curati sempre a portata di mano, i casi d'uso (dalla previsione della domanda dei consumatori all'analisi delle recensioni dei prodotti per aumentare la soddisfazione dei clienti) sono guidati dai dati. Come conferma Minor, non ci sono limiti al modo in cui il team di Columbia può sfruttare i dati per prendere decisioni più efficace e proiettare l'azienda verso il futuro.