Mit Daten und KI die Gesundheit der Patienten in den Mittelpunkt stellen
Verbesserung der Datenverarbeitung
Millionen Datensätze in 20 Minuten aufgenommen
Als Hüter des National Health Services Directory (NHSD) konzentriert sich Healthdirect auf die Nutzung von Terabyte an Daten, die zeitgesteuerte Transaktionen im Gesundheitswesen abdecken, um Gesundheitsdienstleistungen, Angebote und Support zu verbessern. Mit Governance-Anforderungen, Teamsilos und einem schwer skalierbaren Legacy-System wechselte Healthdirect zu Databricks, um die Datenverarbeitung für nachgeschaltetes Machine Learning und gleichzeitig auch die Datensicherheit zu verbessern, um die HIPAA-Anforderungen zu erfüllen.
Datenqualität und Governance, Silos und Unfähigkeit zur Skalierung
Aufgrund des regulatorischen Drucks hat sich Healthdirect Australia zum Ziel gesetzt, die allgemeine Datenqualität zu verbessern und darüber hinaus ein höheres Maß an Governance sicherzustellen. Das Unternehmen stieß jedoch auf Herausforderungen, wenn es um Datenspeicherung und den Datenzugriff ging. Mehrere Datensilos waren auch ein Hindernis für die effiziente Aufbereitung von Daten für nachgelagerte Analysen. Diese unzusammenhängenden Datenquellen beeinträchtigten die Konsistenz der Datenlesevorgänge, da die Daten zwischen den verschiedenen Systemen im Stack häufig nicht synchronisiert waren. Daten von geringer Qualität führten auch zu höheren Fehlerraten und Ineffizienzen bei der Verarbeitung. Diese fragmentierte Architektur verursachte einen erheblichen Betriebsaufwand und schränkte die Fähigkeit von Healthdirect ein, einen umfassenden Überblick über den Patienten zu erhalten.
Außerdem musste das Unternehmen aufgrund von strukturellen Veränderungen bei Kundennachfragen wie Buchungen, Terminen, Preisen, eHealth-Transaktionen usw. über 1 Milliarde Datenpunkte aufnehmen – schätzungsweise mehr als 1 TB an Daten.
„Wir hatten viele Datenprobleme. Wir konnten Daten einfach nicht effizient genug verarbeiten. Wir bekamen Probleme damit, dass die Ausführung der Batches zu lange dauerte. Wir begannen zu erkennen, dass ein 24-Stunden-Fenster nicht der optimale Zeitrahmen ist, um Gesundheitsdaten und -services bereitzustellen“, erklärt Peter James, Chief Architect bei Healthdirect Australia.
Letztlich erkannte Healthdirect, dass das Unternehmen seinen End-to-End-Prozess und seinen Tech-Stack modernisieren musste, um das Geschäft angemessen zu unterstützen.
Modernisierung von Analytics mit Databricks und Delta Lake
Databricks bietet Healthdirect Australia eine einheitliche Datenanalyseplattform, die das Data Engineering vereinfacht und Data-Science-Innovationen beschleunigt. Die Notebook-Umgebung ermöglicht es Healthdirect, Inhaltsänderungen auf kontrollierte Weise vorzunehmen, anstatt jedes Mal maßgeschneiderte Jobs ausführen zu müssen.
„Databricks brachte für unsere Teams und unsere Datenvorgänge eine Menge Vorteile“, sagte James. „Die Analysten arbeiteten direkt mit den für Datenvorgänge zuständigen Teams zusammen. Sie können jetzt gemeinsam die gleiche Arbeit innerhalb der halben Zeit erledigen. Sie arbeiten zusammen und wir sehen eine massive Beschleunigung der Dienste, die wir erbringen.“
Mit Delta Lake haben sie logische Datenzonen geschaffen: Landing, Raw, Staging und Gold. Innerhalb dieser Zonen speichern sie ihre strukturierten wie auch unstrukturierten Daten „wie sie sind“ in Delta-Lake-Tabellen. Von dort aus verwenden sie ein metadatengestütztes Schema und speichern die Daten in einer geschachtelten Struktur innerhalb dieser Tabelle. Auf diese Weise können sie Daten konsistent aus allen Quellen verarbeiten und die Zuordnung von Daten zu den verschiedenen Anwendungen vereinfachen, die die Daten abrufen.
Mit Structure Streaming konnten sie alle ihre ETL-Batchjobs in Streaming-ETL-Jobs umwandeln, die mehrere Anwendungen konsistent bedienen konnten. Insgesamt bietet die einheitliche Datenanalyseplattform von Spark Structured Streaming, Delta Lake und Databricks erhebliche Architekturverbesserungen, die die Leistung steigern, betriebliche Gemeinkosten reduzieren und die Prozesseffizienz steigern.
Schnellere Datenpipelines führen zu einer besseren patientenorientierten Gesundheitsversorgung
Dank der Leistungssteigerung durch Databricks und der verbesserten Datenzuverlässigkeit durch Delta Lake konnte Healthdirect Australia die Genauigkeit seines Fuzzy-Namensabgleichsalgorithmus von weniger als 80 % mit manueller Überprüfung auf 95 % ohne manuelle Eingriffe steigern.
Die Verarbeitungsverbesserungen mit Delta Lake und Structured Streaming ermöglichten es dem Unternehmen, mehr als 30.000 automatisierte Updates pro Monat zu verarbeiten. Vor Databricks mussten sie unzuverlässige Batchjobs verwenden, die in hohem Maße manuell waren, um die gleiche Anzahl von Updates über einen Zeitraum von 6 Monaten zu verarbeiten – das entspricht einer 6-fachen Verbesserung der Datenverarbeitung.
Healthdirect konnte seine Datenladerate auf 1 Million Datensätze pro Minute erhöhen und somit seine 20 Millionen Datensätze in 20 Minuten laden. Vor der Einführung von Databricks dauerte die Verarbeitung von 1 Million Transaktionen mehr als 24 Stunden, sodass Analysten keine schnellen Entscheidungen treffen konnten, um bessere Ergebnisse zu erzielen.
Schließlich wurde die Datensicherheit, die aufgrund der Compliance-Anforderungen von entscheidender Bedeutung war, erheblich verbessert. Databricks bietet Standardsicherheitsakkreditierungen wie HIPAA. Healthdirect konnte dank Databricks die Sicherheitsanforderungen Australiens erfüllen. Dies führte zu erheblichen Kostensenkungen und ermöglichte dem Unternehmen eine kontinuierliche Datensicherheit, indem Änderungen an Zugriffsrechten wie Rollenänderungen, Sicherheitsänderungen auf Meta-Datenebene, Datenlecks usw. überwacht wurden.
„Databricks hat die Markteinführung beschleunigt und die Analytics- und Betriebsfunktionen bereitgestellt, die wir brauchten, um den neuen Anforderungen des Gesundheitssektors gerecht zu werden“, sagte James.
Der Blick in die Zukunft sieht für Healthdirect Australia rosig aus. Mithilfe von Databricks hat Healthdirect bewiesen, welchen Wert Daten und Analytics haben und wie sie sich auf die Geschäftsvision auswirken können. Mit transparentem Zugriff auf Daten mit gut dokumentierter Herkunft und Qualität hat die Beteiligung verschiedener Geschäfts- und Analystengruppen zugenommen, sodass Teams einfacher und schneller Wert aus ihren Daten schöpfen können, um die Gesundheitsversorgung für alle zu verbessern.