Comcast

customer story
The future of entertainment with AI

業種:メディア/エンターテインメント

ソリューション:ユーザー体験のパーソナライズ

ユースケース(技術面):データの取り込み、ETL、機械学習、深層学習

米メディア大手のコムキャスト社は、テクノロジーを活用して数 100 万の視聴者に対し、パーソナライズされたエクスペリエンスを提供することを目指していました。しかし、データパイプラインの処理能力が不足していること、データサイエンスに関わる部門間のコラボレーションが困難であることが、目標達成の障壁となっていました。コムキャスト社は、問題の解決策として Delta Lake や MLflow が統合されている Databricks を導入。ペタバイト規模のデータのための高性能なデータパイプラインを構築し、機械学習モデル 100 種類以上のライフサイクルの管理を簡素化しました。その結果、エミー賞受賞にもつながる、革新的でパーソナライズされた視聴者エクスペリエンスを実現しました。

データや機械学習のニーズに対応できないインフラ

特定の番組に対する視聴者の声によるリクエストに素早く対応すること、また、数十億件におよぶ視聴者とのやり取りを実用的な洞察に変えることが、コムキャスト社の IT インフラストラクチャ、データ分析およびデータサイエンス部門にとって大きな課題でした。コムキャスト社ではさらに、クラウド、オンプレミス、また、場合によってはデバイスへの直接接続など、異なる環境にモデルを展開する必要がありました。Databricks 導入前のコムキャスト社は次のような課題を抱えていました。

  • 膨大なデータ:エンターテインメントシステムから数 10 億件のイベント、音声対応リモコンから 2000 万件以上のデータが生成され、分析のためにセッション化が必要なデータはペタバイト規模になっていた。
  • 脆弱なパイプライン:データパイプラインは複雑で、失敗を繰り返し、回復作業が困難だった。さらに、多数の小規模なファイルの管理に手間がかかり、ダウンストリームの機械学習タスクのためのデータの取り込みに遅延が生じていた。
  • コラボレーションが不十分:世界中に分散するデータサイエンティストが、それぞれ異なるスクリプト言語を使用しており、コードの共有と再利用が困難であった。
  • 機械学習モデルの不効率な管理:数百種類の機械学習モデルの開発、トレーニング、展開が主に手動で行われており、遅く、複製が困難で、拡張性に欠けていた。
  • 部門間の見解の相違:最新のツールとモデルの使用を推進する開発部門と、実績のあるインフラストラクチャ上での展開を希望した運用部門に、見解の相違が生じていた。

Delta Lake によるインフラの自動化とデータパイプラインの高速化

コムキャスト社は、視聴者を喜ばせるための新しい施策を打ち出すためには、データ取り込みから機械学習モデルの展開まで、データ分析プロセスの刷新が必要であるとの結論に達し、Databricks の統合データ分析プラットフォームの導入に至りました。その結果、リッチデータセットの構築、大規模な機械学習の最適化、複数部門が共有するワークフローの合理化とコラボレーションの促進、インフラの簡素化、優れた視聴者エクスペリエンスの提供が可能になりました。

  • インフラ管理の簡素化:クラスタの自動管理、および、自動スケーリングやスポットインスタンスなどのコスト管理機能による運用コストの削減。
  • Delta Lake によるデータパイプラインの効率化:データの取り込み、エンリッチメント、動画や音声アプリ、デバイスからの未加工のテレメトリーデータの初期処理が可能になった。
  • 大量の小規模ファイルの確実な処理:Delta Lake による、膨大な数の小規模ファイルの迅速かつ確実な取り込みを可能にする最適化。
  • コラボレーションワークスペース:インタラクティブなノートブックにより、チーム間の共同作業とデータサイエンスの創造性が向上。これにより、モデルのプロトタイピングが迅速になり、高速なイテレーションが可能になった。
  • 機械学習ライフサイクルの簡素化:マネージド MLflow によって、Kubeflow 環境における機械学習ライフサイクルとモデルの提供が簡素化され、数百種類以上のモデルの追跡・管理を容易にした。
  • 大規模な ETL の信頼性向上:Delta Lake が効率的な大規模分析パイプラインを可能にし、履歴データとストリーミングデータの統合を確実に行い、より豊かな洞察を抽出できるようになった。
  • BI の高速化:Tableau を活用して顧客分析をするデータアナリストに、広範なデータセットを高速に供給できるようになった。

機械学習を活用したパーソナライゼーション

競争の激しいエンターテインメント業界では、立ち止まることは後退を意味します。コムキャスト社は、分析のための統合プラットフォームの導入によって AI を活用した未来型エンターテインメントを先取りし、視聴者エクスペリエンスをより魅力的なものにすることでエンゲージメントを維持し、競争優位性を高めています。

  • エミー賞に輝く視聴者エクスペリエンス:Databricks の導入により、インテリジェントな音声コマンドを使った革新的な視聴者エクスペリエンスを実現。エンゲージメントを高めることに成功し、エミー賞を受賞。
  • コンピューティングのコストを 1/10 に削減:Delta Lake の利用により、データの取り込みを最適化し、性能を向上させると同時にマシンの台数を 640 から 64 に削減。インフラ管理が容易になり、データの分析に注力できるようになった。
  • DevOps 工数を削減:ユーザー 200 人のオンボーディングに要する DevOps のリソースを 5 名から 0.5 名に削減。
  • データサイエンスの生産性向上:インタラクティブな単一のワークスペースで複数の言語をサポートすることで、グローバルに分散するデータサイエンティスト間のコラボレーションを促進。さらに、Delta Lake により、データ部門はデータパイプライン上のデータにいつでもアクセスできるようになり、迅速なモデルの構築とトレーニングが可能になった。
  • モデル展開の高速化:異なるプラットフォームでのモデル展開が可能になり、展開時間が数週間から数分に短縮。
  • 10 倍
    データ処理コストを 10 倍削減
  • 90%
    インフラ管理工数を 90% 削減
  • 時間短縮
    モデル展開に要する時間を数週間から数分に短縮

「Databricks を導入したことで、より多くのデータに裏付けられた意思決定を迅速に行えるようになりました。」

コムキャスト社
製品分析・行動科学シニアディレクター
ジム・フォーサイス氏

関連リソース


テクニカルトーク(Spark + AI Summit NA 2019 より)

無料お試し・その他のご相談を承っております

Databricks の無料トライアル製品について詳しく見るご相談・お問い合わせ