導入事例
創薬・療法の発見に AI を活用

米バイオ医薬品メーカーのリジェネロン、
大規模なゲノムデータからの洞察により創薬を加速

業種: ライフサイエンス

ソリューション: ゲノムシーケンシング

ユースケース:データの取り込み、ETL、機械学習

米製薬リジェネロン(Regeneron)社は、ゲノムデータの活用によって新薬の開発を促進し、その薬を必要とする患者のもとに 1 日でも早く届けることを使命としています。しかし、ゲノムデータから、人生に関わるような重大な発見や標的療法を生み出すことは、容易なことではありません。リジェネロン社のデータ部門は、ペタバイト規模のゲノムデータと臨床データを分析する必要がありましたが、当時は処理性能とスケーラビリティが十分ではありませんでした。しかし現在は、Databricks の導入によって、ゲノムデータセット全体をすばやく分析できるようになり、新しい治療方法の発見が加速されました。

ゲノムデータの分散が機械学習の妨げに

医薬品開発の成功率は低く、現在医薬品開発パイプラインにある全実験薬の 95% 以上が失敗に終わると予測されています。リジェネロン遺伝学センターでは、40 万人以上のエクソームデータと電子健康記録(EHR)をペアにしたデータベースを構築し、改善に挑みました。このデータベースは、現在最も包括的な遺伝子データベースの 1 つとなっています。しかし、リジェネロン社は、この膨大なデータセットの分析において、次のような課題を抱えていました。

  • ゲノムデータや臨床データが広く分散していたため、10 TB におよぶデータセット全体を分析してモデルをトレーニングすることは非常に困難だった。
  • 従来のアーキテクチャを拡張しても、800 億以上のデータポイントの分析をサポートするのは困難で、コストも見合わなかった。
  • データを分析に使用できるように ETL 処理するだけで、データ部門は何日もかかっていた。

Databricks によるインフラの簡素化と機械学習の大規模展開

リジェネロン社では、Amazon Web サービス(AWS)で実行される Databricks の統合データ分析プラットフォームの導入により、データサイエンスの生産性向上を実現し、運用の簡素化と、創薬の加速を可能にしています。これにより、以前は不可能であった新しい方法でデータを分析できるようになりました。

  • クラスタの自動管理:クラスタのプロビジョニングが簡素化され、DevOps 作業に費やす時間が削減されたことで、エンジニアやデータサイエンティストがより重要な業務に注力できるようになった。
  • インタラクティブなワークスペース:データサイエンティスト間でデータや洞察を共有できるようになり、医薬品開発のライフサイクル全体の透明性が高まり、コラボレーションが促進された。
  • Spark による高性能パイプライン:ETL パイプラインの信頼性とスピードが大幅に向上し、10 TB におよぶ EHR と DNA シーケンスのデータ処理が可能になった。

新薬・新療法の発見を加速

リジェネロン社では、Databricks の導入によって、分析をサポートするインフラの構築・維持のための DevOps 作業の大幅な軽減に成功しました。その結果、バイオインフォマティクス、データサイエンス、計算生物学の各部門は、新しい薬や治療法の開発といったより高価値の業務に注力できるようになりました。

  • 創薬標的同定の高速化:データサイエンティストや計算生物学者がデータセット全体に対して行うクエリの実行時間が 600 倍高速になった(30 分から 3 秒に短縮)。
  • 生産性の向上:コラボレーションの改善、DevOps の自動化、パイプラインの高速化(ETL は 3 週間から 2 日に短縮)を実現し、より広範な研究をサポートできるようになった。
  • 600 倍
    データセット全体に対するクエリの実行時間が 600 倍高速化
  • 10 倍
    データパイプラインが 10 倍高速化、より多くの研究をサポート

「Databricks の統合分析プラットフォームは、私たちの総合的な創薬プロセスを変えました。研究医から計算生物学者まで、創薬プロセスに携わる全ての人があらゆるデータに容易にアクセスし、データを活用した分析や洞察抽出を効率よく行えるようになっています。」

リジェネロン社 ゲノムインフォマティクス部門責任者
ジェフリー・リード博士

関連リソース


テクニカルトーク(Spark + AI Summit EU 2019 より)