導入事例

バイオ医薬品の創薬・療法の発見に AI を活用

600 倍

データセット全体に対するクエリの実行時間が 600 倍高速化

10 倍

データパイプラインが 10 倍高速化、より多くの研究をサポート

背景

INDUSTRY: Life sciences

SOLUTION: Genetic association studies

プラットフォーム・ユースケース:Delta Lakeデータサイエンス機械学習ETL

クラウド:AWS

“The Databricks Lakehouse Platform is enabling everyone in our integrated drug development process – from physician-scientists to computational biologists – to easily access, analyze, and extract insights from all of our data.”

—Jeffrey Reid, PhD, Head of Genome Informatics at Regeneron

米バイオ医薬品製薬大手のリジェネロン(Regeneron)社は、ゲノムデータの活用によって新薬の開発を促進し、その薬を必要とする患者のもとに 1 日でも早く届けることを使命としています。しかし、ゲノム配列などのDNA解析データから、人生に関わるような重大な発見や標的療法を生み出すことは、容易なことではありません。リジェネロン社のデータ部門は、ペタバイト規模のゲノム配列データと臨床データを分析する必要がありましたが、当時は処理性能とスケーラビリティが十分ではありませんでした。しかし現在は、Databricks の導入によって、ゲノムデータセット全体をすばやく分析できるようになり、新しい治療方法の発見が加速されました。

Decentralized genomic data blocks machine learning

新薬開発の成功率は低く、バイオ医薬品を含む現在医薬品開発パイプラインにある全実験薬の 95% 以上が失敗に終わると予測されています。リジェネロン遺伝学センターでは、40 万人以上のエクソーム解析データ(エキソン配列データ)と臨床データを含む電子健康記録(EHR)をペアにしたデータベースを構築し、改善に挑みました。このデータベースは、現在最も包括的な遺伝子データベースの 1 つとなっています。しかし、リジェネロン社は、この膨大なデータセットの分析において、次のような課題を抱えていました。

  • 遺伝子解析データや臨床データが広く分散していたため、10 TB におよぶデータセット全体を分析してモデルをトレーニングすることは非常に困難だった。
  • 従来のアーキテクチャを拡張しても、800 億以上のデータポイントの分析をサポートするのは困難で、コストも見合わなかった。
  • データを分析に使用できるように ETL 処理するだけで、データ部門は何日もかかっていた。

Databricks simplified infrastructure and ML at scale

Databricks provides Regeneron with a Lakehouse Platform running on AWS that simplifies operations and accelerates drug discovery through improved data science productivity. This is empowering them to analyze the data in new ways that were previously impossible.

  • クラスタの自動管理:クラスタのプロビジョニングが簡素化され、ETL処理などのDevOps 作業に費やす時間が削減されたことで、エンジニアやデータサイエンティストがより重要な業務に注力できるようになった。
  • インタラクティブなワークスペース:データサイエンティスト間でデータや洞察を共有できるようになり、新薬開発のライフサイクル全体の透明性が高まり、コラボレーションが促進された。
  • Spark による高性能パイプライン:ETL パイプラインの信頼性とスピードが大幅に向上し、10 TB におよぶ EHR と DNA シーケンスのデータ処理が可能になった。

テクニカルトーク(Spark + AI Summit EU 2019 より)

Faster discovery of new drugs and therapies

リジェネロン社では、Databricks の導入によって、分析をサポートするインフラの構築・維持のための ETL処理を含むDevOps 作業の大幅な軽減に成功しました。その結果、バイオインフォマティクス、データサイエンス、計算生物学の各部門は、新しい薬や治療法の開発といったより高価値の業務に注力できるようになりました。

  • 創薬標的同定の高速化:データサイエンティストや計算生物学者がデータセット全体に対して行うクエリの実行時間が 600 倍高速になった(30 分から 3 秒に短縮)。
  • 生産性の向上:コラボレーションの改善、DevOps の自動化、パイプラインの高速化(ETL は 3 週間から 2 日に短縮)を実現し、より広範な研究をサポートできるようになった。

無料お試し・
その他のご相談を承っております

Databricks 無料トライアル製品について詳しく見る
ご相談・お問い合わせ