メインコンテンツへジャンプ
導入事例

バイオ医薬品の創薬・療法の発見に AI を活用

600 倍

データセット全体に対するクエリの実行時間が 600 倍高速化

10 倍

データパイプラインが 10 倍高速化、より多くの研究をサポート

ソリューション: 遺伝的関連研究
プラットフォーム・ユースケース: Delta Lake,データサイエンス,機械学習,ETL
クラウド: AWS

米バイオ医薬品製薬大手のリジェネロン(Regeneron)社は、ゲノムデータの活用によって新薬の開発を促進し、その薬を必要とする患者のもとに 1 日でも早く届けることを使命としています。しかし、ゲノム配列などのDNA解析データから、人生に関わるような重大な発見や標的療法を生み出すことは、容易なことではありません。リジェネロン社のデータ部門は、ペタバイト規模のゲノム配列データと臨床データを分析する必要がありましたが、当時は処理性能とスケーラビリティが十分ではありませんでした。しかし現在は、Databricks の導入によって、ゲノムデータセット全体をすばやく分析できるようになり、新しい治療方法の発見が加速されました。

遺伝子解析データの分散が機械学習の妨げに

新薬開発の成功率は低く、バイオ医薬品を含む現在医薬品開発パイプラインにある全実験薬の 95% 以上が失敗に終わると予測されています。リジェネロン遺伝学センターでは、40 万人以上のエクソーム解析データ(エキソン配列データ)と臨床データを含む電子健康記録(EHR)をペアにしたデータベースを構築し、改善に挑みました。このデータベースは、現在最も包括的な遺伝子データベースの 1 つとなっています。しかし、リジェネロン社は、この膨大なデータセットの分析において、次のような課題を抱えていました。

  • 遺伝子解析データや臨床データが広く分散していたため、10 TB におよぶデータセット全体を分析してモデルをトレーニングすることは非常に困難だった。

  • 従来のアーキテクチャを拡張しても、800 億以上のデータポイントの分析をサポートするのは困難で、コストも見合わなかった。

  • データを分析に使用できるように ETL 処理するだけで、データ部門は何日もかかっていた。

Databricks によるインフラの簡素化と機械学習の大規模展開

リジェネロン社では、Amazon Web サービス(AWS)で実行する Databricks の統合データ分析プラットフォームの導入により、データサイエンスの生産効率を向上させ、運用をシンプルにし、バイオ医薬品創薬を加速させています。これにより、以前は不可能であった新しい方法でのデータ分析が可能に成りました。

  • クラスターの自動管理により、クラスターのプロビジョニングが簡素化され、DevOps の作業に費やされていた時間が削減されるため、エンジニアとデータサイエンティストは価値の高いタスクにより多くの時間をかけることができるようになりました。

  • インタラクティブなワークスペース:データサイエンティストはデータと洞察を共有し、医薬品開発のライフサイクル全体において透明性が高く協力的な環境を構築できます。

  • Spark による高性能パイプライン:ETL パイプラインの信頼性とスピードが大幅に向上し、10 TB におよぶ EHR と DNA シーケンスのデータ処理が可能になった。

新薬・新療法の発見を加速

リジェネロン社では、Databricks の導入によって、分析をサポートするインフラの構築・維持のための ETL処理を含むDevOps 作業の大幅な軽減に成功しました。その結果、バイオインフォマティクス、データサイエンス、計算生物学の各部門は、新しい薬や治療法の開発といったより高価値の業務に注力できるようになりました。

  • 創薬標的同定の高速化:データサイエンティストや計算生物学者がデータセット全体に対して行うクエリの実行時間が 600 倍高速になった(30 分から 3 秒に短縮)。

  • 生産性の向上:コラボレーションの改善、DevOps の自動化、パイプラインの高速化(ETL は 3 週間から 2 日に短縮)を実現し、より広範な研究をサポートできるようになった。