メインコンテンツへジャンプ

このブログは、PepsiCo のデータ分析担当シニアディレクターであるBhaskar Palit 氏と、PepsiCo のデータアーキテクト シニアマネージャーであるSudipta Das氏によって執筆されました。

 

ペプシコは、私たちの日常生活に溶け込んでいます。 当社の製品は、世界 200 以上の国と地域で、1 日あたり 10 億回以上消費者に愛用されています。 ペプシコは2023年に910億ドル以上の純収益を上げ、レイズ、ドリトス、チートス、ゲータレード、ペプシコーラ、マウンテンデュー、クエーカー、ソーダストリームなどの無料飲料と便利食品のポートフォリオに牽引されました。

ペプシコには20万を超える製品があります。 当社は世界中で事業を展開しており、多数のウェアハウスやサプライヤーを管理しており、そのすべてが膨大な量のデータに相当します。 このレベルのデータ詳細があれば、企業のサプライチェーン全体で効率性を高め、食品廃棄物の削減、燃料コストの節約、顧客の需要への対応が可能になります。 4 年前、当社は 30 を超えるデジタル製品にわたって、データ モデリング、データ取り込み、データ提供、データ品質、データカタログ、データ モニタリングという 6 つの重要なコンポーネントを網羅するエンタープライズ グレードのデータ プラットフォームを確立する旅に乗り出しました。 私たちの目標はデータの品質とガバナンスを改善することでした。そこで Databricks Unity Catalog を見つけました。 このブログでは、これまでの進捗と成功について共有しています。

詳細については、 Data + AI Summit 2024 でのセッションをご覧ください。 

サイロ化されたアナリティクスから統合データインテリジェンスへの移行

ペプシコは長年にわたり製品ポートフォリオを拡大してきたため、データが複数のシステムに分散されるようになりました。 この分離により、場合によっては、大規模な組織に共通する課題であるデータの無秩序な拡散と重複が生じました。 これらの問題に対処するために、ペプシコはすべてのグローバルデータを単一のデータアーキテクチャに統合することを計画しました。 この戦略的動きは画期的な影響をもたらし、データ分析とAIによって従業員のパフォーマンス向上が可能になりました。 たとえば、データを一元管理することで、営業チームは店舗訪問中に最新情報にアクセスでき、顧客サービスが向上し、即座に製品を推奨して売上を伸ばすことができます。

さらに、ペプシコは、機械学習と人工知能を活用して、記述型の分析から予測型および処方型の分析に移行することで、分析機能を向上させることを目指しました。 ペプシコでは、データと AI がビジネスと従業員にとって不可欠なツールとなっています。 これはペプシコのデジタル変革の基本的な部分であり、ジャガイモを計画する最適な時間から、店頭に並べるドリトスの袋の数の予測まで、デジタル リソースを全面的に強化します。

これらの特定の要件を満たすために、当社はクラウド プロバイダーとして Microsoft Azure を選択しました。 大量のデータを効率的に処理する必要があることから、Azure 環境内でシームレスに統合できる Databricks が自然な選択肢として浮上しました。 この統合は、当社のデータ処理能力を強化する上で非常に重要です。 この選択は、データエンジニアリング分野でApache Spark™が広く使用されていることと、 Databricksに精通した熟練した専門家が利用可能であることにも影響されました。 さらに、Databricks はオープンでクラウドに依存しないという性質により柔軟性がさらに高まり、制約なしにさまざまなクラウド環境で運用できるようになります。

Databricks Unity Catalogによるデータマネジメントとガバナンスの変革

ペプシコは、製品が世界中で約 13 億マイルにわたってパッケージ化され輸送され、1 日に 10 億回以上消費者に届く中で、毎日何百万ものデータ ポイントを活用して、種子から棚までの事業運営を強化しています。 当社は、世界中の多数のソースから多様なデータを管理しており、データの正確性と信頼性を確保するために、集中型データガバナンス システムを継続的に改善しています。 データエンジニアの環境を合理化することで、業務の効率性と拡張性を高め、お客様に高品質の製品をお届けするという当社の取り組みをサポートすることを目指しています。

これらの要件に対処するために、当社はDatabricks Unity Catalogを採用しました。これは、厳格なセキュリティと高度なアクセス制御に関する当社のすべての要件を満たすために必要なソリューションを提供しました。 Databricks Unity Catalog現在、世界中で 6 ペタバイトを超えるデータを統合する集中型グローバル システムである PepsiCo Data Foundation の不可欠な部分となっています。これにより、1,500 人を超えるアクティブ ユーザーのオンボーディング プロセスが効率化され、世界中の 30 を超えるデジタル製品開発チームで統合されたデータ ディスカバリーが可能になり、ビジネス インテリジェンスと人工知能アプリケーションの両方がサポートされます。例えば、私たちはデータを活用して農家とつながります。農家は、2030年までに700万エーカーの土地で再生型農業を推進するというペプシコのポジティブ(pep+)の目標において重要な役割を果たしています。農家に強化されたデータとアナリティクスを提供することで、農家は土地と水をより効率的に利用し、最終的には水源におけるサプライチェーンの改善につながります。

ペプシコ・グローバル・データ・プラットフォーム・アーキテクチャ
Platform Architecture (*HMS = Hive Metastore, UC = Unity Catalog, DBK = Databricks)
消費パターン
Consumption Pattern

Unity Catalog により、特に次の領域でメリットが実現しました。

データセキュリティ:

  • HMS のスキーマベースのアクセスに代わるテーブルレベルのアクセス制御を実装しました。これにより、最小権限のアクセス制御ポリシーに準拠し、ストレージ コンテナー アクセス用に 64 個の AD グループを維持する必要がなくなります。
  • 財務、人事、R&Dのデータドメインにわたる50以上の制限されたテーブルに対して、きめ細かな行および列レベルのアクセスを可能にしました。
  • ボリューム レベルのアクセス制御を確立し、100 を超える安全でない DBFS ロケーションの露出リスクを排除しました。

監査可能性:

  • ID 別にクエリ実行に関する知見を提供し、プラットフォーム管理チームが毎日 5,000 件を超えるクエリを監視できるようにしました。

モニタリングと可観測性:

  • エンドツーエンドのデータリネージ用のDatabricks APIsと統合されており、150 種類のデータソースから 7,000 を超えるブロンズ テーブルと 1,000 を超えるシルバー テーブルのリネージを作成できます。
  • 2,000 台を超えるノートブックのコスト消費をコマンド レベルで確認できるようになり、コストしきい値を超えたノートブックに対してアラートが生成されました。

Databricks Unity Catalog によるオンボーディングの高速化

私たちの経験に基づくと、 Databricks Unity Catalog 、集中アクセス管理、データガバナンス、データリネージ管理のためのスケーラブルなソリューションであることが証明されています。 Unity Catalog への移行により、アクセス制御プロセスが合理化され、オンボーディング時間が 30% 短縮され、コスト管理が強化されました。 さらに、包括的なデータリネージ機能により、データの出所を追跡し、リアルタイムで変更を追跡できるため、データに対する信頼性が向上しました。 この透明性により、高いデータ完全性と信頼性を維持することができます。

最終的に、Databricks により、進化し複雑化するデータと AI 環境において、より高いレベルのセキュリティ、ガバナンス、効率性を実現できるようになりました。

私たちの取り組みについて詳しく知るには、 Data + AI Summit 2024 の セッション 「Unity Catalog を活用した PepsiCo のローコード グローバル データ プラットフォーム」に ご参加ください。

Databricks 無料トライアル

関連記事

導入事例一覧へ