La salute dei pazienti al primo posto con dati e AI
Riduzione dei tempi di elaborazione dei dati
Milioni di record acquisiti in 20 minuti
Come promotrice della National Health Services Directory (NHSD), Healthdirect è impegnata a sfruttare terabyte di dati di transazioni sanitarie per migliorare i servizi di cura, l'offerta e l'assistenza. Per soddisfare i requisiti del governo australiano, abbattere le barriere di comunicazione fra i team e superare il sistema esistente che risultava difficile da espandere, il servizio si è affidato a Databricks, potenziando l'elaborazione dei dati per il machine learning a valle e, al tempo stesso, aumentando la sicurezza dei dati per rispettare i requisiti HIPAA.
Qualità e governance dei dati, silos e impossibilità di espansione
Spronata da pressioni normative, Healthdirect Australia si è attivata per migliorare la qualità complessiva dei dati e garantire un adeguato livello di governance. Ma l'azienda si è imbattuta presto in difficoltà nello stoccaggio e nell'accesso ai dati. La presenza di molteplici silos di dati impediva la preparazione efficiente dei dati per l'analisi a valle. Le sorgenti di dati scollegate compromettevano l'omogeneità di lettura dei dati, poiché i dati stessi erano spesso disallineati fra i vari sistemi presenti nello stack. La qualità scadente dei dati produceva inoltre tassi di errore più elevati e inefficienze nell'elaborazione. Questa architettura frammentaria generava spese operative rilevanti e impediva all'azienda di avere una fotografia completa del paziente.
Inoltre, Healthdirect doveva acquisire oltre un miliardo di data point in seguito all'evoluzione delle richieste dei clienti, con prenotazioni, appuntamenti, prezzi, transazioni eHealth ecc., per un volume complessivo stimato in oltre 1TB di dati.
“Dovevamo affrontare molte sfide legate ai dati. Non eravamo abbastanza efficienti nell'elaborazione. Cominciavamo ad avere batch di dati in arretrato. E iniziavamo a renderci conto che una finestra di 24 ore non è la tempistica ottimale per fornire dati e servizi sanitari”, spiega Peter James, Chief Architect, Health Direct Australia.
Alla fine, Healthdirect ha capito di dover ammodernare tutti i processi e l'infrastruttura tecnologica per supportare adeguatamente l'attività.
Modernizzare l'analisi con Databricks e Delta Lake
Databricks fornisce a Healthdirect Australia una piattaforma unificata per l'analisi dei dati che semplifica le attività di data engineering e accelera l'innovazione nella data science. L'ambiente dei notebook consente di apportare modifiche ai contenuti in modo controllato, invece di far girare lavori complessi ogni volta.
“Databricks ha dato una forte spinta ai nostri team e alle nostre attività di gestione dei dati”, dice James. “Gli analisti lavorano direttamente con i team di gestione dei dati. Insieme riescono a fare la stessa quantità di lavoro in metà tempo rispetto a prima. Lavorano insieme e vediamo una forte accelerazione nei tempi di fornitura del servizio”.
Con Delta Lake hanno suddiviso i dati in zone logiche: Landing, Raw, Staging e Gold. All'interno di ciascuna zona, i dati vengono memorizzati "as-is", in stato strutturato o non strutturato, in tabelle di Delta Lake. Poi utilizzano uno schema guidato da metadati e conservano i dati in una struttura nidificata all'interno della tabella. In questo modo riescono a gestire in modo omogeneo i dati provenienti da qualsiasi fonte e a semplificare la mappatura dei dati alle varie applicazioni che attingono ai dati stessi.
Contemporaneamente, attraverso Structure Streaming, sono stati in grado di convertire tutti i lavori ETL in batch in lavori ETL in streaming che possono servire più applicazioni. In generale, l'avvento di Spark Structured Streaming, di Delta Lake e della piattaforma di analisi unificata di Databricks porta importanti migliorie all'architettura con conseguente incremento delle prestazioni, riduzione dei costi operativi e miglioramento delle efficienze di processo.
Pipeline di dati più veloci per una sanità migliore guidata dal paziente
Grazie all'incremento delle prestazioni garantito da Databricks e alla maggiore affidabilità dei dati grazie a Delta Lake, Healthdirect Australia ha aumentato la precisione dell'algoritmo di abbinamento dei nomi da meno dell'80% con verifica manuale al 95% senza interventi manuali.
I miglioramenti in fase di elaborazione con Delta Lake e Structured Streaming hanno portato l'azienda ad elaborare più di 30.000 aggiornamenti automatizzati ogni mese. Prima di Databricks venivano utilizzati lavori in batch non affidabili e altamente manuali per elaborare lo stesso numero di aggiornamenti nell'arco di sei mesi: i tempi di elaborazione sono stati quindi ridotti di sei volte.
Healthdirect ha inoltre aumentato la velocità di caricamento dei dati a un milione di record al minuto, caricando l'intero set di 20 milioni di record in soli 20 minuti. Prima di adottare Databricks servivano oltre 24 ore per elaborare un milione di transazioni, impedendo agli analisti di prendere decisioni rapide per arrivare ai risultati richiesti.
Infine, è stata notevolmente aumentata la sicurezza dei dati, fondamentale per rispettare i requisiti di conformità. Databricks offre certificazioni standard di sicurezza come HIPAA, perciò Healthdirect ha potuto sfruttare Databricks per soddisfare i requisiti di sicurezza vigenti in Australia. Questa situazione ha favorito una notevole riduzione dei costi e ha offerto garanzie sulla protezione dei dati grazie al monitoraggio delle modifiche ai privilegi di accesso, ad esempio cambi di ruolo, cambi di sicurezza a livello di metadati, fughe di dati ecc.
“Databricks ci ha garantito il time-to-market e i miglioramenti nelle attività analitiche e operative di cui avevamo bisogno per rispondere alle nuove esigenze del settore della sanità” afferma James.
In prospettiva, il futuro appare roseo per Healthdirect Australia. Con l'aiuto di Databricks, l'azienda ha dimostrato il valore dei dati e dell'analisi e il potenziale impatto sulla visione aziendale. Grazie all'accesso trasparente ai dati, con un'accurata documentazione della provenienza e della qualità dei dati, è aumentata la partecipazione dei vari gruppi di addetti e analisti, consentendo ai team di estrarre valore dai dati più facilmente e velocemente, con l'obiettivo di migliorare l'assistenza sanitaria per tutti.