導入事例
データと AI の活用による患者中心の医療への貢献

業種: 医療・ヘルスケア、ライフサイエンス

ソリューション:患者中心のヘルスケアの提供

ユースケース(技術面):データの取り込み、ETL、機械学習、深層学習

オーストラリアの公衆衛生情報サービス (National Health Services Directory:NHSD)を管轄するヘルスダイレクト・オーストラリアは、テラバイト級のデータを活用して時間主導型活動基準のヘルスケアトランザクションをカバーし、ヘルスケアサービス、情報提供、サポートの改善に注力しています。ヘルスダイレクト・オーストラリアは、厳格なガバナンス要件、チームのサイロ化、従来のシステムのスケーラビリティの欠如といった課題を解決するために Databricks への移行を実施しました。その結果、ダウンストリームの機械学習のためのデータ処理の高速化および、HIPAA 要件を満たすデータセキュリティの確保に成功しています。

データ品質、ガバナンス、サイロ化、スケーラビリティの問題を解決

ヘルスダイレクト・オーストラリアは、高まる規制に対応すべく、包括的なデータ品質の向上と、ガバナンスの強化を目指していましたが、データの保存やアクセスに関する問題に直面しました。ダウンストリーム分析用のデータを効率的に準備するうえで、乱立するデータサイロが障壁となり、スタック内のさまざまなシステムにデータソースが分散し、それらのデータが同期されていないことでデータ読み取りの一貫性に影響を及ぼしていました。また、品質の低いデータによるエラー率の上昇や効率性の低下という問題もありました。ばらばらなアーキテクチャが運用上のオーバーヘッドを生み、患者を十分に理解するという重要なミッションの妨げとなっていました。

さらに、予約方法、料金設定、e-ヘルスのトランザクションなどにおける顧客の需要の変化に伴い、10 億以上のデータポイントを取り込む必要があり、そのデータ量は 1 TB以上になることが予想されました。

ヘルスダイレクト・オーストラリアのチーフアーキテクトであるピーター・ジェームズ(Peter James)氏は、次のように述べています。「私たちはデータに関して多くの課題を抱えていました。まずデータ処理が不効率でした。バッチのオーバーランも発生していました。24 時間の時間枠を取っていては満足な医療データやサービスを提供できなくなることに気づきました。」

ヘルスダイレクト・オーストラリアは、業務を適切にサポートするためには、エンドツーエンドのプロセスと技術スタックを刷新する必要があることを認識しました。

Databricks と Delta Lake で分析を刷新

ヘルスダイレクト・オーストラリアは、データエンジニアリングをシンプルにし、データサイエンスのイノベーションを加速させる統合データ分析プラットフォームを導入することを決断しました。Databricks の Notebook 環境を利用することで、特殊な用途のジョブを毎回実行する必要がなく、コントロールされた方法でコンテンツを変更できるようになりました。

「Databricks は、データ運用だけでなくチーム運営にも良い影響を及ぼしています。アナリストとデータオペレーションチームが直接やりとりするようになり、全体の工数が半減しました。彼らが協力し合うことでサービスの提供スピードが大幅に向上しています。」(ピーター・ジェームズ氏)

ヘルスダイレクト・オーストラリアは、Delta Lake を利用して、Landing、Raw、Staging、Gold といった論理的なデータゾーンを作成しています。これらのゾーン内では、構造化データも非構造化データも、そのままDelta Lakeのテーブルに保存されます。そこから、メタデータ駆動型のスキーマを使用し、そのテーブル内のネストされた構造にデータを保持します。これにより、あらゆるソースからのデータを一貫して処理することができ、データを利用するさまざまなアプリケーションへのデータのマッピングが簡素化されます。

また、構造化ストリーミングにより、全ての ETL バッチジョブをストリーミング ETL ジョブに変換し、複数のアプリケーションに一貫したサービスを供給できるようになりました。ヘルスダイレクト・オーストラリアは、Spark 構造化ストリーミング、Delta Lake、Databricks 統合データ分析プラットフォームの導入により、アーキテクチャが大幅に改善され、性能の向上、運用上のオーバーヘッドの削減、プロセスの効率化に成功しています。

データパイプラインの高速化が可能にする患者中心ヘルスケア

ヘルスダイレクト・オーストラリアは、Databricks による性能の改善と Delta Lake によるデータの信頼性向上の結果、名前のファジーマッチングアルゴリズムの精度を 95% まで向上させ、手作業を排除しました。Databricks 導入以前は手作業による確認に依存しており、80% に満たない精度でした。

また、Delta Lake と構造化ストリーミングによる運用効率の向上により、月に 3 万件以上の自動更新を処理できるようになりました。Databricks を導入する前は、信頼性の低いバッチジョブを手作業で行っており、同数の更新を処理するために 6 か月を要しており、データ処理の効率が 6 倍向上したことになります。

さらに、データの読み込み速度を 1 分間に 100 万レコードまで高めることができ、2,000 万レコードにおよぶデータセット全体を 20 分で読み込めるようになりました。Databricks 導入以前は、同じ 100 万件のトランザクションに 24 時間以上を要しており、アナリストの迅速な意思決定が妨げられ、効果的なデータ活用が行えませんでした。

これらに加え、コンプライアンス要件を満たすうえで重要であったデータセキュリティの大幅な改善を実現しました。Databricksは、HIPAA などの標準的なセキュリティ基準に対応しているため、ヘルスダイレクト・オーストラリアは、同国が定めるセキュリティ要件も満たすことができました。大幅なコスト削減を実現しつつ、役割変更に伴うアクセス権限の更新、メタデータレベルのセキュリティの変更、データ侵害などのインシデントを監視・検知することで、データの確実性を維持できるようになりました。

「Databricks の導入によって市場投入までの時間を短縮できました。分析や運用管理が効率化し、医療部門の新たなニーズに対応できるようになっています。」(ピーター・ジェームズ氏)

ヘルスダイレクト・オーストラリアの未来は明るいものになるでしょう。Databricks の導入により、データと分析の価値を証明し、それらが組織運営とビジョンに与える影響の大きさを示しました。文書化されたデータリネージや品質が保証され、データへのアクセスが透明化されたことで、、さまざまなビジネスグループやアナリストグループがより簡単かつ迅速にデータから価値を引き出せるようになりました。ヘルスダイレクト・オーストラリアは、全ての人の医療・ヘルスケアを向上させるという目的を達成すべく、積極的なデータ利活用に取り組んでいます。

  • 6 倍
    データ処理が 6 倍高速化
  • 20
    データの読み込みを高速化、2000 万件のレコードを 20 分で取り込み

「Databricks の導入によって市場投入までの時間を短縮できました。また、分析や運用管理が効率化したため、医療部門の新たなニーズに対応できるようになっています。」

ヘルスダイレクト・オーストラリア
チーフアーキテクト ピーター・ジェームズ氏

関連リソース

テクニカルトーク(Spark + AI Summit NA 2020):
公衆衛生のための統合型データディレクトリプラットフォームの構築

無料お試し・その他のご相談を承っております

Databricks の無料トライアル製品について詳しく見るご相談・お問い合わせ