AI로 인한 신약 개발 과정 변화
수천 개의 소스에서
데이터 포인트 처리
AstraZeneca는 세계적으로 가장 치료가 어려운 난치병에 대한 혁신적인 치료제를 발견하여 개발 및 상용화합니다. 새로운 혁신을 하는 데 가장 큰 장애물은 새로운 데이터가 들어오는 속도에 비해 모든 과학적 정보를 활용하는 능력이 부족하다는 것입니다. AstraZeneca는 과학자들이 선별적인 결정을 내리는 데 도움이 되도록 설계한 머신 러닝 모델을 제공하면서도 적절한 성능을 내는 확장형 데이터 파이프라인을 구축할 수 있는 플랫폼이 필요했습니다. Databricks를 사용하고 나서는 데이터와 머신 러닝을 활용해서 과학자들이 더욱 빠르고, 저렴하고, 효과적으로 새로운 약물을 더욱 쉽게 발견할 수 있는 추천 엔진을 구축할 수 있었습니다.
지나치게 많은 데이터로 인해 의사 결정 속도 둔화
지나치게 많은 데이터로 인해 의사 결정 속도 둔화
새로운 약물을 발견하여 개발하고 상용화에 이르기까지는 10~15년 이상이 걸리고 R&D에 50억 달러 이상을 투자하더라도 5%도 안 되는 약물만이 시장에 출시된다는 것은 잘 알려진 사실입니다. AstraZeneca는 이런 혁신 속도로는 부족하다는 것을 깨닫고 약물 발견의 성공률을 높이고 임상시험을 안전히 관리할 수 있는 데이터 기반 전략으로 바꾸었습니다.
하지만 AstraZeneca의 연구자들은 활용 가능한 모든 과학적 정보에 따라 신속하게 결정을 내 리기 어려웠습니다. 데이터가 회사 내에 산재하는 소스와 외부 공개 데이터베이스에 저장되어 있었기 때문입니다. 게다가 새로운 연구 결과가 빠른 속도로 공개되고 있기 때문에 과학적 발견 속도를 따라가기란 사실상 불가능했습니다.
-
인프라 복잡성: 유연하지만 지속적인 유지관리가 필요하지 않은 인프라를 찾아야 합니다.
-
곳곳에 산재된 방대한 데이터: 내부 데이터 소스, 기술 문서 등의 공개 소스, 공개 데이터베이스 등을 비롯한 수백 개의 데이터 소스에서 수백만 개의 데이터 포인트를 수집하여 파싱, 분석해야 합니다.
-
오픈 소스 Python 노트북으로 데이터 사이언스 활동을 지원할 수 있을 만큼 운영을 확장하기 어려웠습니다.
데이터 파이프라인 가속화로 ML 혁신 지원
데이터 파이프라인 가속화로 ML 혁신 지원
AstraZeneca는 Databricks 레이크하우스 플랫폼을 사용하여 생물학적 인사이트 및 정보의 지식 그래프를 구축합니다. AstraZeneca의 모든 연구자는 이 그래프를 기반으로 하는 추천 시스템을 사용하여 모든 질병에 대한 새로운 타겟 가설을 생성하고, 그에 따른 모든 데이터를 활용할 수 있습니다.
-
완전 관리형 플랫폼: 클러스터 관리 및 대규모 분석 리소스의 유지관리를 단순화했습니다.
-
적절한 성능의 확장형 데이터 파이프라인 구축: 방대한 과학 문헌 라이브러리 및 데이터 소스에서 NLP를 활용하여 다운스트림 분석을 실행합니다.
-
머신 러닝 혁신 가속화: 데이터 사이언티스트는 더욱 현명한 결정을 내리는 데 도움이 되는 순위 예측을 제공하는 모델을 구축, 훈련할 수 있습니다.
AI를 활용한 약물 발견 혁신
AI를 활용한 약물 발견 혁신
AstraZeneca는 Databricks로 이동한 후, 수천 개의 소스에서 수백만 개의 데이터 포인트를 더욱 손쉽게 처리할 수 있게 되었습니다. 확장의 장애물을 제거한 덕분에 의미 있는 인사이트를 훨씬 안정적으로 추출하여, 사람들이 더욱 건강한 삶을 영위할 수 있는 신약을 개발할 수 있습니다.
-
운영 효율 개선: 클러스터 관리, 클러스터 자동 확장 등의 기능을 통해 데이터 수집에서 전체 머신 러닝 수명 주기 관리에 이르기까지 모든 운영이 개선되었습니다.
-
데이터 사이언스 생산성 향상: 여러 가지 언어를 지원하는 공유된 노트북 환경으로 팀 생산성이 향상되었습니다.
-
인사이트 추출 시간 단축: Databricks의 추천 엔진은 더욱 정보에 입각한 가설을 세우도록 지원하여, 신약 및 치료제를 출시하는 시간을 단축합니다.