주요 컨텐츠로 이동
고객 사례

데이터 및 AI를 사용한 환자 건강 중심 치료

6배

데이터 처리 개선

20

20분 내로 100만 레코드 입력

INDUSTRY: Healthcare
CLOUD: AWS

NHSD(National Health Services Directory)를 이끄는 Healthdirect는 시간 중심적 활동 기반 의료 트랜잭션과 관련된 테라바이트 규모의 데이터를 활용하여 의료 서비스, 상품, 지원을 개선하는 데 집중합니다. 거버넌스 요구 사항을 준수하고, 팀 간 사일로와 확장이 어려운 기존 시스템의 문제를 해결하기 위해 Databricks로 옮겨온 이후로, 다운스트림 머신 러닝의 데이터 처리를 향상하는 동시에 HIPAA 요건을 준수하도록 데이터 보안을 개선할 수 있었습니다.

데이터 품질 및 거버넌스, 사일로 및 확장 문제

Healthdirect Australia는 규제로 인한 압력 때문에 전반적인 데이터 품질을 개선하고 그 위에 거버넌스를 한층 강화하기로 했습니다. 하지만 데이터 스토리지와 액세스에서 문제가 발생했습니다. 데이터 사일로가 여러 개 있어서 다운스트림 분석용 데이터를 효율적으로 준비하는 데 장애물이 되었습니다. 이렇게 서로 분산된 데이터 소스는 데이터 읽기의 일관성에 영향을 미쳤습니다. 스택 내의 여러 시스템에서 데이터가 동기화되지 않는 경우가 많았습니다. 데이터 품질이 낮으니, 오류율과 처리 비효율이 높아졌습니다. 이렇게 파편화된 아키텍처는 상당한 운영 간접비를 발생시키고, 환자에 대해 종합적으로 확인하는 능력을 제한했습니다.

게다가 고객 수요가 변화함에 따라 예약, 진료 예약, 가격, 전자 의료 트랜잭션 활동 등의 데이터 포인트를 10억 개 이상 입력해야 했고, 모두 합치면 용량이 1TB 이상으로 추정되었습니다.

“저희는 데이터 문제가 많았습니다. 전혀 효율적으로 처리할 수가 없었죠. 배치 오버런이 발생하기 시작했습니다. 의료 데이터와 서비스를 제공하는 데 24시간은 최적의 시간이 아니라는 생각이 들었습니다." Health Direct Australia의 수석 아키텍트인 Peter James는 이렇게 설명합니다.

마침내 Healthdirect는 전체적 프로세스와 기술 스택을 현대화하여 비즈니스를 적절히 지원해야 한다는 것을 깨달았습니다.

Databricks 및 Delta Lake로 분석 현대화

Databricks는 Healthdirect Australia에 데이터 엔지니어링을 단순화하고 데이터 사이언스 혁신을 가속화하는 통합 분석 플랫폼을 제공합니다. 이 노트북 환경은 매번 맞춤 설정된 작업을 실행하기보다는 통제된 방식으로 내용을 변경할 수 있도록 지원합니다.

James는 “Databricks는 우리 팀과 데이터 운영에 큰 도움이 되었습니다. 애널리스트들이 데이터 운영 팀과 직접 협력할 수 있게 되었죠. 동일한 시간 내에 서로 협력할 수 있게 되었고, 원래 걸리던 시간보다 반이나 단축되었습니다. 이들이 함께 일하게 되자 서비스를 제공하는 속도가 엄청나게 빨라졌습니다.”라고 말했습니다.

Healthdirect는 Delta Lake를 사용하여 Landing, Raw, Staging, Gold라는 논리적 데이터 영역을 만들었습니다. Delta Lake Tables의 이 영역 내에서 구조적 또는 비구적 상태의 데이터를 "있는 그대로" 저장합니다. 여기에서 메타데이터 중심적 스키마를 사용하고, 해당 테이블 내의 중첩된 구조에 데이터를 보관합니다. 이렇게 하면 모든 소스에서 데이터를 일관적으로 처리할 수 있으며, 데이터를 가져오는 다양한 애플리케이션에 대한 데이터 매핑을 단순화할 수 있습니다.

한편, Structure Streaming을 통해 모든 ETL 배치 작업을 여러 애플리케이션에 일관적으로 제공할 수 있는 스트리밍 ETL 작업으로 변환했습니다. 결과적으로, Spark Structured Streaming, Delta Lake, Databricks 통합 데이터 분석 플랫폼을 도입한 이후로 아키텍처가 상당히 개선되어, 성능은 향상되고 운영 간접비는 절감되었으며, 프로세스 효율은 높아졌습니다.

데이터 파이프라인 처리 속도 단축으로 환자 중심 의료 강화

Databricks가 제공하는 성능 향상 효과와 Delta Lake를 통한 데이터 안정성 향상 덕분에 Healthdirect Australia는 퍼지 이름 매치 알고리즘의 정확도가 수동 확인 시 80%에도 못 미치던 것이 수동 개입 없이도 95%까지 향상되었습니다.

Delta Lake 및 Structured Streaming을 통해 처리 속도도 향상되어 매월 30,000개 이상의 자동 업데이트를 처리할 수 있게 되었습니다. Databricks를 사용하기 전에는 수작업이 많고 신뢰할 수 없던 배치 작업을 사용하면 같은 수의 업데이트를 6개월에 걸쳐 처리해야 했습니다. 즉, 데이터 처리 속도가 6배나 빨라진 것입니다.

또한, 데이터 로드 속도를 1분당 100만 레코드로 향상하였으며, 20분 내로 2,000만 건의 레코드 데이터를 로딩할 수 있습니다. Databricks를 도입하기 전에는 똑같이 100만 건의 트랜잭션을 처리하는 데 24시간 이상이 걸려서 애널리스트가 결과에 대해 신속히 결정을 내리기 어려웠습니다.

마지막으로 규정 준수 요건으로 인해 중요성이 큰 데이터 보안도 매우 개선되었습니다. Databricks는 HIPAA와 같은 표준 보안 승인을 제공합니다. Healthdirect는 Databricks를 통해 호주의 보안 요구 사항을 준수할 수 있었습니다. 그 덕분에 상당한 비용을 절감하였고, 역할 변경, 메타데이터 수준 보안 변경 사항, 데이터 유출 등을 모니터링하여 지속적인 데이터 보증을 제공하게 되었습니다.

James는 "Databricks는 의료 서비스 부문의 새로운 수요에 대응하는 데 필요한 분석과 운영 능력을 개선한 것은 물론이고, 출시 기간을 단축하는 효과도 제공했습니다."라고 말했습니다.

Healthdirect Australia의 전망은 밝습니다. Healthdirect Australia는 Databricks의 도움을 받아서 데이터와 분석의 가치를 입증하고 비즈니스 비전에 어떤 영향을 미치는지 보여주었습니다. 데이터에 투명하게 액세스하여 잘 문서화된 리니지와 품질을 향상하고, 다양한 비즈니스 및 애널리스트 그룹에 대한 참여가 늘면서, 모든 사람을 대상으로 의료 서비스를 개선하겠다는 목표에 따라 더욱 쉽고 빠르게 데이터에서 가치를 창출할 수 있게 되었습니다.