Databricks Unity Catalog(UC)は、クラウドやデータプラットフォームにわたる企業のすべてのデータとAI資産に対して、単一の統合ガバナンスソリューションを提供します。 このブログでは、Unity Catalog Governance Value Levers(ガバナンス・バリュー・レバー)をより深く掘り下げ、包括的なデータとAIのモニタリング、レポーティング、リネージを通じて、具体的にどのようにポジティブなビジネス成果を実現しているかを紹介します。
従来の非統合ガバナンスに伴う全体的な課題
Unity Catalog Governance Value Leversブログでは、情報セキュリティ、アクセス制御、利用監視、ガードレールの制定、データ資産からの「唯一の信頼できる情報源」の洞察の取得など、ガバナンスの組織的重要性の「理由」について議論しました。 Databricks UCがなければ、従来のガバナンスソリューションではもはやニーズに対応できません。
議論された主な課題には、複数のベンダーにまたがって管理されているコンプライアンスの弱体化とデータ・プライバシーの分断、管理されていないサイロ化したデータとAIの沼地(スワンプ)、指数関数的に上昇するコスト、機会、収益、コラボレーションの損失などがあります。
Databricks Unity Catalogが統合ビュー、モニタリング、可観測性をどのようにサポートするか
では、技術的な観点から見ると、どのように機能するのでしょうか? UCは、Databricksデータインテリジェンスプラットフォーム全体で登録されたすべての資産を管理しています。 これらの資産は、BI、DW、データエンジニアリング、データストリーミング、データサイエンス、MLなど、あらゆる分野で活用できます。 このガバナンスモデルは、アクセス制御、リネージ、ディスカバリー、モニタリング、監査、共有を提供します。 また、ファイル、テーブル、MLモデル、ノートブック、ダッシュボードのメタデータ管理も提供します。UCは、以下で説明するように、Databricksアセットカタログ、特徴量ストア、モデルレジストリ、リネージ 機能、データ分類のためのメタデータのタグ付けなどを通じて、エンドツーエンドの情報全体を一元的に把握することができます。
データ資産全体の統合ビュー
- アセットカタログ:メタデータを含むシステムテーブルを通じて、スキーマ、テーブル、カラム、ファイル、モデルなど、カタログに含まれるすべてを確認できます。 Databricks 内のボリュームについてよくご存知でない場合、ボリュームは表以外のデータセットを管理するために使用されます。 技術的には、構造化、半構造化、非構造化など、あらゆる形式のファイルにアクセスするための論理ボリュームです。
- 特徴量ストアとモデルレジストリ:データサイエンティストが使用する機能を一元化されたリポジトリ内で定義します。これは、AIワークフロー全体の一貫したモデル学習と推論に役立ちます。
- リネージ機能:ビジネスで実際に行動を起こすためには、データへの信頼が重要です。 レポート、モデル、洞察を信頼するためには、データに対するエンドツーエンドの透明性が必要です。 UCはリネージ機能によってこれを容易にし、洞察を提供します:生のデータソースは?誰がいつ作ったのか? データはどのように統合され、変換されたのか? モデルから学習させたデータセットまでのトレーサビリティはどうなっているか? テーブルレベルとカラムレベルの両方で、データからモデルまでのエンドツーエンドを表示します。 Snowflakeのようなデータソースを横断してクエリを実行し、すぐに利益を得ることもできます:
- データ分類のためのメタデータのタグ付け:データ資産に関する文脈的な知見を提供することで、データやクエリを充実させます。 これらのカラムやテーブルレベルでの記述は、手動で入力することもできますし、Databricksアシスタントによる生成AI機能で自動的に記述することもできます。 以下は、説明と定量化可能な特徴の例です: