クラウド型AIによる疾患治療の高度化
200万のゲノム変異体を 15 分で解析
アルツハイマー、パーキンソン病などの神経疾患に対する 2 つの創薬標的を発見
ゲノムデータの大規模化により、新たな治療標的の同定や既存の治療法の有効性を高める手法において、製薬会社は変革を迫られています。米製薬大手のバイオジェン(Biogen)も例外ではありません。しかし、バイオジェンでは、研究プログラムのポートフォリオの拡大に従来のインフラと分析能力では対応できず、数十億種におよぶ神経疾患の知見からなる大規模なゲノムデータセットの管理が困難になっていました。この課題の解決策として、バイオジェンはデータブリックスを導入し、オンプレミスのデータインフラを AWS のクラウドに移行。その結果、データ処理時間の大幅な短縮、チーム間の連携の強化、全体としての処理能力の向上という成果を得ています。スケーラビリティとスピードを強化した現在では、疾患生物学の研究者は遺伝的変異体、人間の寿命、神経症状に関する理解を深め、世界中の患者のための治療法の開発を促進しています。
ペタバイト規模のゲノムデータ解析を可能に
バイオジェンでは、人間の遺伝学的証拠を利用して、医薬品ポートフォリオの分類、標的遺伝子の発見、神経疾患の生物学的基盤の解明を促進しています。しかし、ペタバイト規模のゲノムデータから遺伝子型と表現型の関係を導き出すには、拡張性と適応性に優れたテクノロジーが必要で、従来のソリューションでは対応できないという課題を抱えていました。
また、バイオジェンは、UKバイオバンクから、ボランティア参加者50万人分の健康とウェルビーイングに関する膨大なデータの提供を受けましたが、バイオインフォマティクスの課題に直面します。既存のデータセンターのストレージ容量が十分でなく、大規 模なデータ収集・分析が行えなかったのです。当時のバイオジェンのネットワーク帯域幅では、これほど大量の情報転送処理ができず、2018年には、これが原因で、高性能コンピューティングクラスタが1週間停止するという障害が発生しました。
バイオジェンのゲノムインフォマティクス部門シニアディレクターのデビッド・セクストン(David Sexton)氏は次のように述べています。
「データパラダイムの転換が必要でした。データブリックスの導入とクラウドへの移行によって、ペタバイト規模のゲノムデータを視覚化し、分析できるようになりました。」
インフォマティクスとインフラを大規模に、シンプルに
Databricks社は、ゲノムデータのワークフローに特化したランタイムであり、Databricks Lakehouse Platformの構成要素であるDatabricks for Genomicsを発表しました。このランタイムは、初期データ処理から大規模な統計分析まで、バイオジェンのあらゆるニーズに対応しています。また、データブリックスのアーキテクチャへの移行は、データチームにとって、オープンソースのテクノロジーを利用して大規模なデータセットの取り込みと分析が高速化するというメリットがあります。
バイオジェンは、データブリックスおよびDNAネクサス(DNAnexus)との連携を通じて、オンプレミスのデータインフラをAWSのクラウドに移行しました。これらの取り組みによって業務がシンプルになり、データの平均処理時間が短縮しました。また、Delta Lakeを利用することで、かつて70万種類の変異体の処理に2週間を要していたパイプラインを、約15分で200万の変異体に注釈が付けられるように最適化しました。
セクストン氏は次のように述べています。
「UKバイオバンクのデータセットは膨大で複雑なため、一筋縄ではいきませんでした。50万人分のデータ、数百万の変異体とデータポイントという規模です。高品質のデータセットの構築には、膨大な数の変異体を処理し、健康診断データと結合させ、サイエンティストが容易にクエリできるよう、大規模なコーパスに統合する必要があります。」
必要なストレージと帯域幅を確保したことで、バイオジェンは、データサイエンスの生産性を高め、新たな治療法の開発に注力できるようになりました。DNAnexusのプラットフォームと、ゲノム解析のためのデータブリックスを組み合わせが、UKデータバンクのデータの活用を可能にし、人間の寿命や神経症状に影響を与える蛋白切断型の変異体を含む遺伝子の同定という成果を生み出しました。また、これらの発見は、2 つの創薬標的の同定と、アルツハイマー、パーキンソン病といった神経変性疾患に関する新たな知見につながっています。
新療法の発見を加速
「私たちが扱うデータにおいて重要なのは、品質と一貫性です。データブリックスの導入によって、クラウド最適化のための工数や帯域幅の確保が不要になり、特定疾患に特 定の遺伝子変異を適合させるサイエンスに専念できるようになりました。」(バイオジェン デビッド・セクストン氏)
クエリ可能な高精度のデータベースを構築するために、バイオジェンは、遺伝子座に基づいた高度なデータ分割を行う必要がありました。数千列におよぶ膨大なメタデータには、垂直方向のパーティショニングが不可欠です。同時にセキュリティも確保しなければなりません。システムの構築・拡張と研究者によるアクセス増加に伴い、データインテグリティ維持の緊急性も増大します。データブリックスの環境に移行したことで、バイオジェンは、複雑なデータをさまざまな方法で接続し、Spark Hiveメタストアをプラットフォームのアクセス制御モデルに統合し、データセキュリティを直接監視できるようになりました。
セクストン氏はまた、データブリックスの導入効果について、次のように述べています。
「データブリックスを導入したことで、6 つの異なる遺伝子に含まれる多数の変異体の発見に成功しました。どれも人間の寿命に甚大な影響をもたらすものです。また、他の薬剤の開発においても、薬剤の機能や成功の可能性に対してゲノム変異体がどのように影響するかを予測するための機械学習モデルも構築できました。データの効率性と発見のプロセスが飛躍的に向上したことで、複雑な疾患の生物学的基盤の解明、治療標的の同定、治療法の開発を促進する特別な環境が構築できたと考えています。」