メインコンテンツへジャンプ

Reviewed by saki.kitaoka

ガバナンスは、データとAI製品が正確なガイドラインと標準に従って一貫して開発され、維持されることを保証します。 アーキテクトのための設計図であり、一貫性、ガイドライン、標準によってソリューションとデータビジョンに命を吹き込みます。 反復可能なワークフロー管理により、データエンジニアのためのスケールとスピードを実現します。 データサイエンティストのためのAIモデルを共同で構築し、運用することで、スケールの大きな運用を可能にします。 データ資産を広く共有し、すべての人に利益をもたらすと同時に、必要なときには非公開にする、データ管理者のためのセキュリティです。 データとAI資産に基づくビジネス洞察の透明性を備えた、経営幹部にとっての信頼です。 また、Databricks Unity Catalogを使用することで、業務効率を高めることができます。

このブログでは、企業がユニファイド・ガバナンス・ソリューションを標準化する前に直面する多くの課題の概要を説明し、テクノロジーがビジネスにどのようなプラスの成果をもたらすかを解明し、最後にこれらの課題を克服するUnity Catalogのバリューレバーについて解説します。

Databricks Unity Catalogは、クラウドやデータプラットフォームを問わず、企業のすべてのデータとAIに対応する業界唯一の統合ガバナンスソリューションです。その基盤はDatabricks Data Intelligence Platformであり、データの独自性を理解し、企業のすべてのデータとAIのための最も包括的で統一されたガバナンスソリューションを推進します。そしてこれ自体が、オープン、スケーラブル、低コスト、ハイパフォーマンスのためのレイクハウスの上に構築されています。

では、Unity Catalogの主なバリューレバーは何でしょうか? このブログでは、「データとアーキテクチャのリスクの軽減」「コンプライアンスの確保」「イノベーションの加速」「運用効率の向上とプラットフォームの複雑性/コストの削減」「コラボレーションの実現」「データの価値の収益化」の5つについて説明しています。

Unity Catalogは、このようなポジティブな結果を具体的にどのように提供しているのでしょうか? イノベーションを加速するために、データ資産全体の統一されたビューとディスカバリーを提供し、データアーキテクトやソリューションアーキテクトにとって非常に役立ちます。 アクセス管理と監査のための統一されたソリューションを持つことは、ライセンスコストを削減するだけでなく(多くの場合、50%または90%)、データとAIのセキュリティを強化します。 包括的なデータとAIによるモニタリングとレポーティングを提供することで、技術者でなくても専門家でも信頼性が向上します。 データやモデルを共有するためのプラットフォームにとらわれないコラボレーション環境を提供することで、ビジネス内のあらゆるペルソナを民主化し、新たなビジネス価値を引き出します。

全体を通して、ガバナンスはインテリジェンスによって簡素化されています。 データ・インテリジェンスは、AIを搭載したナレッジ・エンジンを使用して、コンテキストを意識した検索を可能にします。 AIによって強化された説明、コメント、ドキュメントを自動的に生成します。 自然言語を使用してデータを検索するため、技術者でない人でも、SQLクエリを作成するためにITスタッフを介することなく、直接質問することができます。 "どのマーケティング・キャンペーンが最も成功しているか?" または"サプライ・チェーン全体で最も生産性の低かったベンダーは?" - これは、私たちが夢見てきた現実の民主化がついに実現したものです!

Unity Catalogは、BI、データウェアハウス、データエンジニアリング、データストリーミング、データサイエンス、MLにまたがるデータとAIによるガバナンスを統合します。 構造化データ、半構造化データ、非構造化データ、ストリーミング・データ、AIモデル、ノートブック、ワークプレイス、ファイル、テーブル、ダッシュボードのすべてにまたがるビューとコントロールを提供します。 AIによって強化された全体的な検索、発見、使用傾向の監視、データのリネージュ、発見、モデルの透明性によって、より有益で実用的な監視を提供します。 自然言語であろうとSQLであろうと、この変革的なAI強化テクノロジーを活用する組織は、データ資産のすべてを解き放ち、将来のリーダーとなることに成功します。

伝統的な"非統一型"ガバナンスにおける課題

多くの組織は、情報セキュリティ、アクセス制御、使用状況の監視、ガードレールの制定、およびデータ資産から"single source of truth" の洞察を得るためのガバナンスの重要性を認識しています。 このような組織が成長するにつれて、ガバナンスの課題はさらに大きくなり、Databricks Unity Catalogがなければ、従来のガバナンスソリューションはもはやそのニーズを十分に満たすことはできません。 データは急増し、従来のデータウェアハウスに新たな非構造化データソースやストリーミングデータソースが追加され、複数のベンダーが提供する多様なテクノロジーは、決して終わることのないリスクの高いパッチワークソリューションへと変貌を遂げ、もちろん、その資産は"データ沼" へと変貌を遂げます。 混乱が生じないように、人々には"ガードレールが必要である"、という格言は、エンタープライズガバナンスと適切に共鳴しています。

ガートナー社によると、2026年までに大企業の20%が単一のデータおよびアナリティクス・ガバナンス・プラットフォームを使用して、個別のガバナンス・プログラムを統一し、自動化するとしています。 レイクハウス・パラダイムに基づく統一されたガバナンス・アーキテクチャーがなければ、組織は多くの課題に直面します:

  • 複数のベンダーにまたがって管理されるコンプライアンスの弱さとデータ・プライバシーの分断:
    データウェアハウスのガバナンス・ベンダー、データレイクのガバナンス・ベンダー、ストリーミング・データのガバナンス・ベンダー…このような環境と複数のクラウド環境は、高価で重複したライセンスコストと、まとまった管理能力の欠如というリスクにつながります。
  • 管理されず、サイロ化されたデータとAIの沼: 
    ”single source of truth”がない、あるいは数十万、数百万のカラムにわたるインテリジェントで自動化されたガバナンスがない場合、資産は発見不可能、セキュリティ保護されていない、監視されていない、信頼性がない、そして最終的には使用されなくなります。このため、BIレポートやAIモデルには実用的な情報や最新の情報が欠落している可能性があり、イノベーションと情報に基づく意思決定の妨げになります。
  • 指数関数的に上昇するコスト:
    外部環境と内部環境の間で常にデータを行き来させる必要があるため、ストレージ料金が大幅に増加し、パフォーマンスとスケールが低下し、レイテンシが増大します。
  • 機会、収益、コラボレーションの損失: 
    さまざまなグループが適切なビジネスインサイトを得ることが難しくなり、重複した取り組みが増えるため、業務効率が低下します。統一されたガバナンス・プラットフォームの欠如はコラボレーションの妨げとなり、最終的にはデータとAIの民主化を一握りのプログラマーやデータサイエンティストだけに制限してしまいます。

統一されたガバナンス・プラットフォーム

統一されたガバナンス・プラットフォームの欠如は、エンタープライズ企業全体の最大の懸念であり、データの真の価値を引き出すことができません。 2023年MITテクノロジーレビューの洞察レポートによると、CIOの60%がデータとAIのための単一のガバナンスモデルが優先事項であると回答しています。 25%がレガシーシステムをサイロ化していると考えています。 25%はセキュリティの枠組みが不十分。 18%は、あまりにも多くの異なるシステムを抱えていました。

"そのシステムのサポートと保守には、完全に専任のチームが必要でした。しかし、Databricksを使えば、すべてが一元化されます。当社の脅威リサーチャーは、データを簡単に照会し、活用することができます。"
— BlackBerry Distinguished Data Architect Justin Lai.

Databricks Unity Catalogがガバナンスをサポートする方法

では、技術的にはどうなのでしょうか? Unity Catalogは、BI、DW、データエンジニアリング、データストリーミング、およびデータサイエンス(& ML)に保存されている既存の外部コンピューティングプラットフォームとアセットの上のレイヤーです。 このガバナンスモデルには、アクセス制御、リネージ、ディスカバリー、モニタリング、監査、共有が含まれます。 また、ファイル、テーブル、MLモデル、ノートブック、ダッシュボードのメタデータ管理も含まれます。

統一Databricksガバナンス・アーキテクチャ
Unified Databricks governance architecture

Unity Catalogは、アクセス管理のための統一された単一ツール、データ資産全体の統一されたビュー、包括的なデータとAIを活用したモニタリングと可観測性、プラットフォームに依存しない共有とコラボレーションを提供します。

Databricks Unity Catalogのバリューレバー

Unity CatalogはDatabricksのデフォルトで有効になっており、プレミアムワークスペースまたはエンタープライズワークスペースを使用している場合、追加費用はかかりません。 新規のお客様の場合、デフォルトで有効になっています。 コンプライアンスに関するリスクを軽減し、プラットフォームの複雑性とコストを削減し、イノベーションを加速し、社内外のコラボレーションを促進し、データの価値を収益化することによって価値を提供します。

Unity Catalogによりリスクが軽減され、コンプライアンスを確保

  • 統一されたガバナンスは、構造化、半構造化、非構造化、リアルタイム、GenAIなど、データソースがどこにあろうと、すべてのデータソースと主要なクラウド環境にわたって提供されます。
  • Databricks Data Intelligence Platformによるインテリジェントで自動化されたガバナンスは、AIを活用してテーブルとカラムのコンテキストを最適に理解します。
  • 権限、行レベル、列レベルのセキュリティにより、データ全体にわたる適切なアクセスを保護するための1つのモデルです。
  • プラットフォーム間の一元的な監査、データのリネージ、データ使用の追跡、監査可能性により、コンプライアンス・リスクを軽減します。
  • リアルタイムでプロアクティブな包括的ガバナンスにより、生データからダウンストリームのインサイトまで、データ変更の完全なリネージと影響分析を通じてリスクを軽減します。 

Unity Catalogがプラットフォームの複雑さ/コストを削減

  • ファイル、テーブル、MLモデル、ダッシュボードを含むすべてのデータ資産を、クラウドやデータプラットフォームのどこにあっても管理することで、複雑さを軽減します。
  • 複数のベンダーの料金が重複しないため、ライセンスコストを削減できます。
  • 圧倒的なスプロール間のデータのコピーとインポートの必要性を減らし、プラットフォーム間のデータ複製を最小限に抑えることで、ストレージコストを削減します。
  • エンジニアリングのボトルネックを減らし、外部データソースからのデータ移動や取り込みの必要性を大幅に減らすことで、より迅速な実行を実現します。

イノベーションを加速するUnity Catalog

  • データエンジニアリングとAIの自動化により、スタッフは時間のかかる反復的な作業の平均80%から解放され、イノベーションと価値の収益化に集中できるようになります。
  • データとAIの民主化により、ビジネスアナリストや事業部門のペルソナにイノベーションが拡大します。
  • データの断片化を減らすことで、社内外のデータ資産、MLモデル、イノベーションのためのGenAIの発見が加速します。 文脈を考慮したAIインテリジェンス・エンジンにより、発見が容易になります。
  • 根本原因分析を可能にすることで、データパイプラインのエラーやデータ品質の問題をピンポイントで特定し、データの信頼性を高め、データから得られる洞察の信頼性を向上させます。
  • 外部データを活用し、バリューチェーンを最適化することで、製品のイノベーションを推進します。

Unity Catalogがコラボレーションを促進し、データの価値を収益化

  • インテリジェント・データ・アプリケーション開発のライフサイクル全体におけるROIの向上を推進します。
  • 社内外のペルソナを超えたコラボレーション・プラットフォームにより、部門横断的な開発と商品化を実現します。
  • 顧客、サプライヤ、パートナーとの安全で高品質なデータ交換により、迅速なビジネス洞察が可能になります。
  • Transparency Market Researchの 最近の調査に よると、世界のデータブローカー市場(")だけでも、10年末までに4,620億ドルの成長が見込まれて います 。

Unity Catalogは、技術的な観点から具体的にどのようにポジティブな結果をもたらすのでしょうか?

このシリーズの次の2つのブログでは、Databricks Unity Catalogが具体的にどのようにポジティブな結果をもたらすのかについて掘り下げていきます。

ブログ「Unity Catalog Governance in Action: Monitoring, Reporting, and Lineage shows how Unity Catalog provides」: モニタリング、レポーティング、リネージでは、Unity Catalogがどのような機能を提供するのかを紹介します。

ブログ「Unity Catalog Governance in Action: Access Management and Sharing shows how Unity Catalog provides」: アクセス管理と共有は、Unity Catalogがどのように提供するかを紹介します。

  • データとAIのセキュリティを強化するためのアクセス管理と監査ツールの1つに、Lakehouse FederationとSQLがあります。
  • Delta SharingDatabricks MarketplaceCleanrooms(プライベートプレビュー中、2024年予定)を通じて、新たなビジネス価値を引き出すための、プラットフォームに依存しないデータおよびモデルの共有とコラボレーション。

まとめ

ガバナンスは、リスクを軽減し、コンプライアンスを確保し、イノベーションを加速し、コストを削減するための鍵となります。 Databricks Unity Catalogは、クラウドとデータプラットフォームを横断する企業のすべてのデータとAIに単一の統合ガバナンスソリューションを提供する、市場でもユニークな製品です。

Unity Catalog Databricksのアーキテクチャは、ガバナンスをシームレスにします。すべてのデータ資産の統一されたビューとディスカバリー、アクセス管理のための1つのツール、データとAIのセキュリティを強化するための監査のための1つのツール、そして最終的には、新しいビジネス価値を引き出すプラットフォームに依存しないコラボレーションを可能にします。

以下は、Unity Catalogに関する知識を深めるためのリンクです。 また、皆様の成功のご報告をお待ちしております!

Databricks 無料トライアル

関連記事

Data and AI Summit 2023におけるUnityカタログの最新情報

翻訳:Junichi Maruyama. - Original Blog Link データ管理に不可欠な、説明責任、コンプライアンス、品質、透明性といったガバナンスの基本原則は、今やAIにとっても同様に不可欠なものとなっています。Databricksは Unity Catalog で、クラウドとデータプラットフォームにわたるデータとAIガバナンスのための業界唯一の統合ソリューションをリリースすることで、先駆的なアプローチを取りました。 組織はUnity Catalogを使用することで、あらゆるデータプラットフォームやクラウドでファイル、テーブル、MLモデル、ノートブック、ダッシュボードを安全に発見、アクセス、監視、コラボレーションすることができます。 私たちは、 Lakehouse Federation 、 Governance for AI 、AIを活用したガバナンス( Lakehouse Monitoring、Lakehouse Observability...
プラットフォームブログ一覧へ