VOGUE、The New Yorker、WIRED など著名な雑誌を発行する米コンデナスト社は、データを駆使することで、印刷物、オンライン媒体、動画、SNS を通じて 10 億人を超える読者にコンテンツを提供しています。しかし、膨大なデータを活用することは容易ではなく、インフラの管理や、データサイエンスの生産性向上に苦心してきました。Databricks が、この問題を解決しました。クラスタを自動化することで DevOps の手間を省き、Delta Lake により、一月当たり 1 兆のデータポイントを処理するデータパイプラインの構築を実現しました。さらに、MLflow との連携によりデータサイエンスのイノベーションを活性化させ、機械学習のライフサイクル全体の管理を可能にしました。これらの実現により、ブランド全体を通じてパーソナライズされたコンテンツを顧客に提供し、顧客の囲い込みと維持率向上に成功しました。
コンテンツ体験向上のために顧客データを活用できなかった
米出版大手のコンデナスト社は、20 を超えるブランドを運営しています。月当たりの Web コンテンツ閲覧者数は1億を超え、ページ ビューは8億回を超え、膨大なデータが蓄積されていました。データ部門は、機械学習の利用を通じてパーソナライズされたコンテンツ提案とターゲティング広告を配信し、ユーザーエンゲージメントの向上を図りました。しかし、実際にやってみると、いわゆるバニラ状態の Spark を使用してデータプラットフォームを構築することは、困難であることがわかりました。
-
インフラの複雑さ:Spark クラスタの構築と管理は多くの準備と頻繁なメンテナンスを要し、結果的に、より重要な業務に十分な時間を確保できなくなっていました。
-
現状からの脱却:現状の問題を解決し、チームとしての活動を促進するために、データパイプラインの構築と、より高度な分析のための共通のプラットフォームが必要でした。
-
膨大なデータ量:現状のデータレイクソリューションでは、増え続ける膨大なデータを処理することができませんでした。
データパイプラインと機械学習のライフサイクルをシンプルに
コンデナスト社は、Databricks の提供する完全管理のクラウドプラットフォームを導入することで、オペレーションの簡素化、性能の向上、データサイエンスのイノベーションを実現しました。
-
インタラクティブなワークスペース: Databricks の導入により、データサイエンティストは、データや洞察の共有・追跡を容易にし、コラボレ ーションを醸成する環境を取得しました。
-
Delta Lake: 1 か月当たりのデータポイント数が 1 兆を超え、データ量がますます増大するなか、Delta Lake によってその膨大なデータを問題なく処理し、データの書き換えや統合など、より多くのユースケースに対応できるようになりました。
-
マネージド MLflow: MLflow を活用することで、実験の追跡から実稼働モデルの監視まで、機械学習ライフサイクルの管理が容易になりました。
AI の支援によるパーソナライゼーションで顧客満足度向上
データ分析と機械学習の基盤として Databricks を導入することで、20 を超えるブランドにおいて、顧客に関する新たな洞察を活用した顧客エンゲージメントの強化戦略が可能になりました。
-
顧客エンゲージメントの向上:データパイプラインの改善により、コンデナスト社は、より適切なおすすめコンテンツを迅速に提供できるようになり、ユーザーエクスペリエンスの向上に繋がりました。
-
集約型アプローチ:データエンジニアリングとデータサイエンス部門は、共通のプラットフォームを共有し、新たなコンテンツ商品やエクスペリエンスの創出や問題解決に向けて協力体制を築いています。
-
拡張性:データ量の増大にも対応する拡張性により、処理能力および洞察抽 出能力を維持します。
-
実稼働モデルの増産:MLflow を利用することで、商品のイノベーションをより迅速に行うことができます。コンデナスト社では、現在 1,200 のモデルを運用しています。