マルチメディアコンテンツをグローバルに提供
データウェアハウスのエンジニアによるセルフサービス度が 30% 向上
85 の dbt モデルをさまざまなドメインのデータプラットフォーム Evergreen 上に構築
データ統合のスプリントプロジェクト 1 件に要する時間を 16 時間短縮
コンデナストは、ニューヨーカー、ヴォーグ、GQ、Wired など、世界で最も影響力のある象徴的な 37 のブランドを育成するグローバルメディア企業です。グローバル展開を計画するなかで、コンデナストはデータアーキテクチャが複雑すぎて、同社が必要とするスケーラビリティを実現できていないことに気づきました。この課題を解決すべく、コンデナストは、dbt クラウドと Databricks レイクハウスを同時に導入し、全てのデータチームが同じデータセットにアクセスできるようにしました。これにより、データサイエンスとデータウェアハウスのチームは、単純な作業をデータエンジニアだけに頼ることなく、はるかに生産性の高い作業を行うことができるようになりました。
世界中のユーザーに喜ばれるマルチメディアを提供
コンデナストは、デジタル、ソーシャル、ビデオ、プリントの各チャンネルにおいて、最高品質のコンテンツを生み出すことに努めています。同社は、10 億人のファン、4 億 3,500 万人のソーシャルフォロワー、7,500 万人の月間紙面読者数を抱えています。この活動により、3.6 ペタバイトのデータが生成されましたが、コンデナストはまだ始まったばかりです。同社は最近、デジタルチャネルへの注力を強化し、グローバルなリーチを拡大することを目指しましたが、データアーキテクチャがその課題に対応していないことに気づきました。
多くの大企業がそうであるように、コンデナストもデータをサイロ化したシステムで保管していました。5 種類のデータソースが、同社の当時のクエリエンジン「Presto」と統合されていました。データエンジニアは、Databricks のレイクハウス上で ETL ジョブやプロセスを実行し、Amazon S3 にデータを保存しました。また、Databricks でテーブルを作成し、S3 のストレージレイヤーに指定しました。データウェアハウスチームは Informatica を使用してデータモデルを構築し、その結果を S3 に保存して、データエンジニアと協力してそのデータセットを Presto に戻し、チームがデータクエリでアクセスできるようにしました。
コンデナストのデータエンジニアリング部門シニアディレクターであるナナ・エスマン氏は、次のように述べています。「私たちのデータアーキテクチャは、あまりにも複雑であることがわかりました。データエンジニアリング、データサイエンス、データウェアハウスの各チーム間でコラボレーションが阻害され、データに対する不信感が募っていました。さらに重要なことは、その複雑なデータアーキテクチャが真のグローバル企業になるために必要な拡張性を妨げていたということです。」
データアーキテクチャの簡素化により、データエンジニアへの依存を軽減
コンデナストは、データチーム間のコラボレーションを促進してデータアーキテクチャを簡素化するために、dbt を数台の社内ラップトップにインストールし、Databricks のレイクハウスに接続してテストを実行しました。1 週間もすると、エスマン氏は理想的な解決策を見つけたと確信しました。
「dbt を Databricks のレイクハウスと一緒に使うことがコンデナストにとって正しい選択であると副社長に説得するのは、とても簡単なことでした。dbt を既存のシステムに統合することがいかに簡単であるかがわかりました。また、dbt は dbt クラウドを発表したばかりで、拡張性を高めるという我々の組織戦略にぴったりでした。」とエスマン氏は述べています。
dbt Labs はコンデナストと緊密に連携し、スムーズな統合プロセスを実現するとともに、データチームが新しいプラットフォームでより迅速に開発できるように支援しました。現在、3 つの地域にまたがるコンデナストのチームは、Databricks のレイクハウスと Amazon Web Services をベースに構築されたプラットフォームである Evergreen でデータにアクセスしています。全てのデータコンシューマーは、Databricks のレイクハウスを介してアクセスする dbt で構築されたシルバー(クレンジング・適合済み)およびゴールド(ビジネスレベルのキュレート済み)と同じデータセットから作業するようになりました。
コンデナストは Databricks を使用して同社の 4 つの主要なデータソースのための再利用可能なデータ取り込みフレームワークを構築し、チームによるデータへのアクセスを強化しました。dbt クラウドとのシームレスな統合により、データウェアハウスエンジニアはアナリティクス、機械学習アプリケーション、レポーティングのためのデータモデルを迅速に構築できます。データサイエンティストは、dbt で変換されたデータを引き出し、コンデナストの広告や消費者体験、おすすめのコンテンツをパーソナライズするためのより優れた機械学習のユースケースを構築可能です。そして、このデータをレイクハウスに保存し、企業全体で利用できるようにします。
エスマン氏は、次のように述べています。「dbt と Databricks のレイクハウスにより、パーソナライズモデルや解約モデルを構築するデータサイエンティストは、マーケティング担当やアナリストがアクティベーションやビジネスインサイトに使用しているのと同じデータセットをようやく使用できるようになりました。これにより、データエンジニアへの依存を減らしつつ、生産性を飛躍的に向上させることができました。また、データインフラ全体が 1 つのプラットフォームで稼働しているため、コストの監視や管理も非常に容易になっています。」
データウェアハウスのエンジニアによるセルフサービス度が 30% 向上
Evergreen での運用開始以来、コンデナストはサブスクリプション、コンシューマー、コンテンツ、コマースなどの領域で、85 の dbt モデルを構築してきました。また、データウェアハウスチームとデータエンジニアリングチーム間のデータ統合のスプリントプロジェクト 1 件に要する時間を 16 時間短縮しました。新プラットフォームの導入により、データウェアハウスのエンジニアによるセルフサービス度が 30% 向上しました。
エスマン氏は、次のように説明しています。「過去のデータ統合スプリントでは、データウェアハウスエンジニアがデータセットを構築して S3 に保存し、データエンジニアと協力してそのテーブルを Presto で利用可能にする必要がありました。Databricks と AWS で構築された Evergreen に dbt クラウドをプラスしたことでこの作業が不要になり、1 プロジェクトあたり 16 時間の短縮ができています。」
コンデナストでは、dbt インスタンス全体で再利用可能な集中型マクロを構築することで、さらに時間を節約しています。また、シルバーレベルのテーブルから、データを利用する BI ツールに至るまで、データモデルの系譜を確認できます。その結果、信頼性とデータセットの品質を向上させるために、dbt テストによりさまざまなポイントでデータをテストすることが重要です。
エスマン氏は、次のように述べています。「データモデルをエンドツーエンドで確認できるようになったため、問題がビジネスユーザーに届いてクレームになる前に発見することが可能になりました。これらのビジネスユーザーは、現在、私たちのデータの整合性に対してより大きな信頼を寄せています。dbt Labs と Databricks のソリューション、そしてコンデナストのデータエンジニアリングチームとデータウェアハウスチームの才能と努力なしには、このようなことは不可能だったでしょう。」