Regeneron은 유전체 데이터를 활용하여 도움이 필요한 환자에게 새로운 약물을 제공하는 것을 사명으로 삼습니다. 그러나 이 데이터를 사람들의 삶을 바꿀 수 있는 새로운 발견과 표적화된 치료법으로 바꾸는 일은 그 어느 때보다도 어려움이 큽니다. 데이터 팀은 처리 성능이 낮고 확장성에 제한이 있어서 페타바이트 규모의 유전체 및 임상 데이터를 분석하기에는 역부족이었습니다. Databricks는 모든 유전체 데이터 세트를 신속히 분석하고, 새로운 치료 방법을 찾는 데 걸리는 시간을 단축할 수 있도록 지원합니다.
분산된 유전체 데이터로 인해 머신 러닝 사용이 불가
현재 약물 개발 파이프라인에 있는 전체 실험 약물의 95% 이상이 실패할 것으로 예상됩니다. Regeneron Genetics Center는 이를 개선하기 위해 40만 명 이상의 전자 건강 기록과 서열이 정리된 진유전체를 결합하여 세계에서 가장 포괄적인 유전체 데이터베이스를 구축했습니다. 그러나 이 방대한 데이터 세트를 분석하는 데는 여러 가지 어려움이 있었습니다.
-
유전체 및 임상 데이터가 매우 분산되어 있어서 10TB에 달하는 데이터 세트로 모델을 분석하고 훈련하기가 매우 어려웠습니다.
-
기존 아키텍처는 800억 개 이상의 데이터 포인트 분석을 지원하기 어렵고, 비용이 많이 들어갑니다.
-
데이터 팀에서는 분석에 사용하기 위해 데이터 ETL을 시도하는 데만 며칠이 걸렸습니다.
Databricks로 인프라 및 대규모 ML 단순화
Databricks는 AWS에서 실행되는 플랫폼을 Regeneron에게 제공하여 데이터 사이언스의 생산성을 향상함으로써, 운영을 단순화하고 약물 발견 기간을 단축하도록 지원합니다. Regeneron은 이전에는 불가능했던 새로운 방식으로 데이터를 분석할 수 있게 되었습니다.
-
자동 클러스터 관리: 클러스터 프로비저닝을 단순화하여, DevOps 작업에 걸리는 시간을 단축함으로써 엔지니어와 데이터 사이언티스트는 더욱 중요한 작업에 더 많은 시간을 할애할 수 있습니다.
-
인터랙티브 업무 공간: 데이터 사이언티스트들이 데이터와 인사이트를 공유하여, 모든 약물 개발 수명 주기에서 투명성과 협업이 가능한 환경을 조성합니다.
-
적절한 성능을 제공하는 Spark 기반 파이프라인: 수십 테라바이트에 달하는 EHR + DNAseq 데이터를 처리하는 데 사용하는 ETL 파이프라인의 안정성과 속도를 개선했습니다.
새로운 약물 및 치료법을 신속히 발견
Regeneron 연구팀은 Databricks를 사용한 이후로 분석을 지원하기 위한 DevOps 작업 설정과 인프라 관리에 과도한 리소스를 낭비할 필요가 사라졌습니다. 이제 생물 정보 연구팀, 데이터 사이언티스트, 컴퓨팅 생물학자들은 새로운 치료법 개발 등의 더욱 중요한 작업에 더 많은 시간을 투자할 수 있습니다.
-
약물 타겟 식별 가속화: 데이터 사이언티스트와 컴퓨팅 생물학자가 모든 데이터 세트에 쿼리를 실행하는 시간이 30분에서 3분으로 단축되어, 600배나 속도가 향상되었습니다!
-
생산성 향상: 협업 개선, DevOps 자동화 및 파이프라인 가속화(ETL 기간이 3주에서 2일로 단축)로 다양한 연구를 지원할 수 있게 되었습니다.