メインコンテンツへジャンプ

bpが目指す統一データガバナンスへの道

Unity Catalogで新たな可能性を解き放つ!
Share this post

Summary

効果的なデータガバナンスは、組織がデータ資産を活用するためには不可欠です。bpがDatabricks Unity Catalogをどのように使用してデータガバナンスフレームワークを強化しているか、課題、戦略、利点を強調して学びましょう。

"Unity Catalogがすでにもたらした利益と影響、そしてDatabricks Platformの次世代機能を有効にすることで解放されるものは、過小評価できません。" 
—  Liam Donohoe, Principal Architect, bp

データ主導の現代において、効果的なデータガバナンスは、データ資産の可能性を最大限に活用するために不可欠です。エネルギー分野のグローバルリーダーであるbpは、Databricks Unity Catalogを導入することで、データガバナンスの枠組みを効率化し強化する変革的な取り組みを始めました。このプロジェクトは、bpとDatabricksの緊密な連携のもと成功裏に完了しました。本記事では、bpの経験を掘り下げ、課題、戦略、およびこの重要な移行によるメリットを詳しく解説します。

統一されたデータガバナンスの必要性

bpは、大企業に典型的な課題に直面していました。それは、大量のデータがさまざまなシステムやプラットフォームに分散している状況です。主な課題は以下の通りです:

  • 中央集権的な管理の欠如: 分散したシステム間でデータを管理することにより、一貫したデータガバナンスポリシーの適用が困難でした。
  • データセットの可視性: データセットの所有権の発見と可視化に時間がかかり、データの出所の正確性に懸念が生じていました。
  • コンプライアンスとセキュリティ: GDPRや業界固有の規制に対応するためのコンプライアンス確保が複雑でした。

これらの課題を解決するために、bpはDatabricks Unity Catalogを採用し、データ資産を管理する包括的な枠組みを提供することを目指しました。

Unity Catalogを選んだ理由

Unity Catalogは、これらの課題に対応するための包括的なフレームワークを提供しました。bpが得た主な利点は以下の通りです:

  • 中央集権的なデータガバナンス: 組織内のすべてのデータにアクセス可能な共通名前空間を提供し、一貫したガバナンスポリシーを適用します。
  • 細かいアクセス制御: 行や列レベルでの詳細なアクセス制御を可能にし、許可されたユーザーだけがデータにアクセスできるようにします。
  • データの追跡性と監査性の向上: データとMLパイプライン全体で自動的に列レベルのデータリネージを提供し、監査プロセスを簡素化します。

移行の範囲と規模

bpのUnity Catalogへの移行の規模は驚異的でした。この企業は、2つの別々のデータハブプラットフォームと15のスタンドアロンインスタンスから270以上のDatabricksワークスペースを移行しました。これらのワークスペースは、ファイナンスERP、顧客と製品、生産と運用、エンタープライズを含む主要なビジネスエンティティの10,000人以上の人々にサービスを提供しました。

移行は段階的なアプローチで実行されました。各四半期ごとに、bpは前の四半期よりもはるかに多くのワークスペースを移行することができました

  • 第1四半期:パイロット移行
  • 第2四半期:早期採用者
  • 第3四半期:最初の多数派
  • 第4四半期:残りのワークスペース

この構造化されたアプローチにより、bpはプロセス全体で学習し、適応することができ、後期の移行のペースを加速させました。

実装戦略と学んだ教訓

bpのUnity Catalogの実装戦略は、Databricks、パートナー、内部チームとの緊密な連携が、課題を迅速かつ効果的に解決するための鍵であるという方法的で戦略的なものでした。

  1. ビジネスに重要なテーブルの優先順位付け: bpは、ビジネス運営への重要性、感度、およびコンプライアンス要件に基づいて、すべてのデータ資産を分類するための包括的なレビューを実施しました。定期的な進捗測定がプロジェクトを軌道に保ちました。
  2. 柔軟なデータ統合: Unity Catalogへのすべてのデータの統合を迅速化するために、bpは柔軟なアプローチを採用し、データをその場所で会い、それを時間とともにブロンズ、シルバー、ゴールドのレイヤーに合わせました。週次のコールはプロジェクトの運動量を維持するために重要でした。
  3. 自動化最優先のアプローチ:bpは自動化を活用して、データ消費者の長いテールを管理し、データチームを圧倒することなく、すべてのデータが効果的に管理されることを確認しました。このアプローチは、各ビジネスグループのユニークな課題に対応し、異なるコーディングパターン、データアクセスパターン、機能使用を収容する上で重要でした。

実現した利益

"200以上のDatabricksワークスペースを含む私たちのUnity Catalog Migrationプロジェクトは、クラウドコストの節約、ガバナンス、運用効率の面で優れた結果を達成しました。 Unity Catalogの下でワークスペースを統合することで、運用コストを大幅に削減し、ガバナンスを集中化し、セキュリティを強化し、データ共有とコンプライアンスを効率化しました。 Databricksエンジニアとの密接な協力により、この移行は速度と効率の面で私たちの期待を超えました。このマイルストーンはコスト効率を向上させるだけでなく、bpでの安全かつ効率的なデータ管理を進め、ビジネスステークホルダーにとっての価値を高めます。"
—  Srinivas Chandolu, Staff Platform Engineer, bp

bpでのUnity Catalogの実装は、データのセキュリティとコンプライアンスを大幅に改善し、データの可視性を向上させ、組織全体の運用効率を向上させました。

技術的な利点

Unity Catalogのbpでの実装は、いくつかの重要な技術的利点をもたらしました:

  • 最新のDatabricks機能へのアクセス:Unity Catalogは、Databricks Genie、Delta Sharing、およびDatabricks Assistantなどの最先端の機能へのアクセスを解放し、bpのデータエンジニアに大きな利点を提供しました。

  • 技術的な負債の解消:移行により、bpはサービス可能な寿命を終えたランタイムバージョン9.1からアップグレードすることができ、カスタムエンタイトルメントフレームワークの問題を解決しました。

  • データ可視性の向上:Unity Catalogは、組織全体でのデータ可視性を大幅に向上させました。その結果、bpは今では重複とサイロを避けることができます。

  • データセキュリティとコンプライアンスの改善: Unity Catalogの中央集権的なガバナンスと堅牢なセキュリティ機能は、コンプライアンスプロセスを合理化し、機密データへのアクセスを許可された人員のみに確保しました。

金銭的メリット

Unity Catalogの移行は、bpに大幅な財政的利益をもたらすと予想されています:

  • コスト削減:Unity Catalogの移行の一部として含まれるDatabricksの統合努力は、年間約100万ドルの節約が可能です。

  • 運用効率: システムテーブルからコストとランタイムジョブデータへのアクセスを可能にすることで、bpはOverwatchジョブの明示的な管理の必要性を排除し、週に約4,000ドルを節約しました。

  • 最適化されたランタイムコスト: 最新の最適化されたUnity Catalog互換のDatabricksランタイムへのアクセスは、ランタイムコストを大幅に削減する可能性があります。

運用改善

Unity Catalogへの移行は、いくつかの運用改善をもたらしました:

  • 専用サービスライン:bpは現在、Unity Catalogを専用のサービスラインとして運用することができ、運用管理とサポートの能力を強化します。

  • 強化されたデータアクセスフレームワーク:bpは、セキュリティ、コンプライアンス、データ管理の効率を向上させたデータアクセスフレームワークを改善したPlatform Experience Portalを展開しました。

  • アクセス管理の効率化:新しいフレームワークは更新を容易にし、10,000人以上のユーザーの管理負担を軽減し、チーム間の協力を促進します。

新しい機能の解放

Unity Catalogは、bpがいくつかの高度な機能を活用する位置づけをしました:

  • Delta Sharing:移行の一部として完全なDelta-Parquet変換が行われ、非Databricks消費者のためのDelta共有を解放しました。

  • SQLサーバーレスウェアハウス:これらは広範に実装され、bpのデータ処理能力を強化しました。

  • AI機能:bpは現在、モデルサービング、ファインチューニング、ベクターデータベースなどの高度なAI機能を使用するための良好な位置にいます。

  • GenAIオーグメンテーション: bpは現在、自動生成されたコメント、AIアシスタント、Genieを使用してエンジニアリングの生産性を向上させ、ビジネスユーザーのアクセシビリティを向上させることができます。

  • 強化されたテレメトリ: システムテーブルと詳細なテレメトリへのアクセスにより、bpはデータ操作に関するより深い洞察を得ることができます。

これからの道のり

bpのUnity Catalog導入の取り組みは、統一されたデータガバナンスソリューションが大企業のデータ管理プラクティスをどのように変革できるかを示す好例です。bpは今後もワークスペースのさらなる統合やレガシーHive Metastoreの廃止を進める計画です。主要な課題に対処し、Unity Catalogの強力な機能を活用することで、bpはエネルギー業界におけるデータガバナンスの新たな基準を確立しました。この移行は、短期的なデータガバナンスの課題を解決するだけでなく、将来的に高度なデータおよびAI機能を活用するための基盤を築き、データ主導型のリーダーとしての地位を確固たるものにしました。

Databricks 無料トライアル

関連記事

Unity Catalogのオープンソース化を発表します!

Translation Review by saki.kitaoka Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。 これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します: オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。 マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポートします。 マルチエンジンサポート: オープンAPIを使用して、Unityにカタログされたデータはほぼすべてのコンピュートエン

PepsiCoがDatabricks Unity Catalogで企業向けデータインテリジェンスプラットフォームを構築した方法

このブログは、PepsiCo のデータ分析担当シニアディレクターである Bhaskar Palit 氏 と、PepsiCo のデータアーキテクト シニアマネージャーである Sudipta Das 氏によって執筆されました。 ペプシコは、私たちの日常生活に溶け込んでいます。 当社の製品は、世界 200 以上の国と地域で、1 日あたり 10 億回以上消費者に愛用されています。 ペプシコは2023年に910億ドル以上の純収益を上げ、レイズ、ドリトス、チートス、ゲータレード、ペプシコーラ、マウンテンデュー、クエーカー、ソーダストリームなどの無料飲料と便利食品のポートフォリオに牽引されました。 ペプシコには20万を超える製品があります。 当社は世界中で事業を展開しており、多数のウェアハウスやサプライヤーを管理しており、そのすべてが膨大な量のデータに相当します。 このレベルのデータ詳細があれば、企業のサプライチェーン全体で効率性を高め、食品廃棄物の削減、燃料コストの節約、顧客の需要への対応が可能になります。 4...

Data + AI Summit 2024:Databricks Unity Catalogの最新情報

Translation Review by saki.kitaoka 急速に進化する人工知能とデータやジェネレーティブAIツールの爆発的な増加が特徴の時代において、企業はデータとAIのガバナンスの断片化に直面しており、データとAIの民主化の努力が妨げられています。この時代に成功するためには、企業はデータとAIのガバナンスにおいてオープンで統一されたアプローチを採用する必要があります。これには次のことが含まれます: オープンな接続性: データの出所や形式に関係なく、すべてのデータの信頼できる単一の情報源を作成する。 統一されたガバナンス: すべてのデータ(ファイル、テーブル)およびAI資産(MLモデル、AIツール、ノートブック)が中央システムで発見され、安全に管理され、監視され、追跡されるように包括的な監督を実施する。 オープンなアクセシビリティ: データとAIリソースにどのツール、コンピュートエンジン、プラットフォームからでもアクセスできる柔軟性を提供し、ロックインを回避するためにオープンスタンダードとインターフ
業界一覧へ