メインコンテンツへジャンプ
導入事例

アストラゼネカ:AI の活用による創薬の変革

数百万ドル

数千のデータソースから数百万のデータポイントを処理

astrazeneca-header-Image
ソリューション: 推薦エンジン
プラットフォーム・ユースケース: Delta Lake,データサイエンス,機械学習,ETL
クラウド: AWS,Azure

「Databricksに移行したことで、処理性能が桁違いに向上しました。」

– アストラゼネカ社 計算生物学者、エリセオ・パパ

大手製薬アストラゼネカ社は、世界中の重篤な疾患を治療するための画期的な薬の発見、開発、および製品化に注力しています。頻繁に生成されるデータのペースに追いつき、サイエンティストが利用可能な全ての情報を取得できる環境を創ることが、新しいイノベーションを成功させる鍵になります。アストラゼネカ社では、サイエンティストが的を絞った意思決定を行うために設計された機械学習モデルに対応する、スケーラブルで高性能なデータパイプラインを構築できるプラットフォームを必要としていました。Databricks を導入し、データと機械学習を活用した推薦エンジンを構築することで、サイエンティストがより迅速かつ効率的に安価で新薬を発見できるようになりました。

意思決定の遅れを招く膨大なデータ

創薬には 10〜15 年の長期間を要し、研究開発投資は 50 億ドルを超えるにもかかわらず、実際に市場に出る医薬品はそのうちの 5% 未満であることは広く知られています。アストラゼネカ社は、創薬の成功率を高め、臨床試験をより安全に実施すべく、データ駆動型のアプローチに移行しました。

しかし、社内外の公開データベースに分散するデータの扱いは困難であり、また、急速に変化する化学的知見を常に把握して自社の創薬研究に取り入れていくことは事実上不可能な状況でした。アストラゼネカ社のサイエンティストは、データに基づいた意思決定の効率化を阻む、次のような課題を抱えていました。

  • インフラの複雑さ:柔軟性があり、かつ、定期的なメンテナンスが不要なインフラを必要としていた。

  • 分散した膨大な量のデータ:社内データソースや、技術文献、パブリックデータベースなどの公開ソースを含む、100以上のデータソースにわたって、数百万ものデータポイントの取得、解析、分析が必要だった。

  • 使用していたオープンソースのPythonノートブックで、データサイエンスの取り組みをサポートするオペレーションのスケーリングは困難だった。

高速データパイプラインが機械学習のイノベーションを促進

AstraZenecaは、Databricks Lakehouse Platformを活用し、生物学的な洞察と事実のナレッジグラフの構築を支援しています。このナレッジグラフによって、サイエンティストが利用可能なすべてのデータを活用して、あらゆる疾患に対して新しい標的仮説を生成できる推奨システムが強化されます。

  • フルマネージド型のプラットフォーム:Azureでの大規模な分析リソースのクラスタ管理と保守が簡素化された。

  • 大規模で高性能なデータパイプラインの構築:科学文献とデータソースの膨大なライブラリ全体でNLPを活用し、ダウンストリーム分析が実行可能になった。

  • 機械学習イノベーションを加速:データサイエンティストは、よりスマートな意思決定を行うのに役立つランキング予測を提供するモデルを構築し、トレーニングできるようになった。

AI の活用による新薬開発

アストラゼネカ社は、Databricksを導入して以来、数千ものデータソースからの数百万を超えるデータポイントの処理をより簡単に実行できるようになりました。このスケールの障壁を取り除いたことで、人々の健康的な生活を支えるために設計された新薬を生み出すことができる有意義な洞察をより確実に引き出すことを実現しました。

  • 運用効率の向上:クラスタの管理や自動スケーリングなどの機能により、データの取り込みから機械学習ライフサイクル全体の管理までの運用が改善された。

  • データサイエンスの生産性向上:複数の言語をサポートするコラボレーション型ノートブック環境により、チームの生産性が向上した。

  • 迅速な洞察抽出:Databricksを搭載した推薦エンジンにより、より多くの情報に基づいた仮説構築力が向上し、新薬や医薬品の市場投入まで時間の短縮を可能にした。