序章
AIやデータドリブンを目指す組織では、多くの場合、社内のチームに高品質で信頼できるデータを提供する必要があります。 このようなデータプロダクトを構築することで、組織はデータと AI の目標に対する標準と信頼できるビジネス上で価値のある基盤を確立できるようになります。 品質とユーザビリティを最優先するアプローチの 1 つは、データメッシュ パラダイムを使用してデータ資産の所有権と管理を民主化することです。 当社のブログ記事 (パート 1 、パート 2 ) では、顧客が企業内でDatabricksを活用して、データ メッシュの基本的な柱 (その 1 つである「プロダクトとしてのデータ」)に対処する方法について説明しています。
データをプロダクトとして扱うという考え方は、データ メッシュの出現により人気が高まったかもしれませんが、プロダクト思考の適用は、データ メッシュを採用することを選択していない顧客の間でも共感を呼んでいることがわかりました。 組織構造やデータ アーキテクチャに関係なく、データドリブンの意思決定は普遍的な指針となります。 データの品質と使いやすさは、これらのデータドリブンの決定が有効な情報に基づいて行われるようにするために最も重要です。 このブログでは、Databricks 全般および特にエンタープライズ対応のデータプロダクトを構築するための推奨事項をいくつか概説します。
データプロダクトは、ユーザーとアプリケーションが適切なデータを適切なタイミングで適切な品質で適切な形式で入手できる場合に最終的に価値をもたらします。 この価値は従来、コストの削減、プロセスの高速化、リスクの軽減による運用の効率化という形で実現されてきましたが、最新のデータプロダクトは、組織の業界またはパートナー エコシステム内で新たな付加価値の提供やデータ共有の機会を生み出すこともできます。
データプロダクト
データプロダクトはさまざまな方法で定義できますが、通常は DJ Patil の『The Art of Turning Data into Product』にある定義と一致します。 「まず、...、データプロダクトの適切な定義は、データの使用を通じて最終目標を促進するプロダクトです。」 そのため、データは表形式のデータに限定されず、 MLモデルやダッシュボードなどにも適用できます。 このようなプロダクトの考え方をデータに適用するには、各データプロダクトにデータプロダクトオーナーを設定することを強くお勧めします。
データプロダクトオーナーは、データプロダクトの開発を管理し、その使用とパフォーマンスを監視します。 そのためには、基礎となるビジネスを理解し、データ消費者の要件を高品質で使いやすいデータプロダクトの設計に変換できる必要があります。 組織内の他のメンバーと協力して、ビジネス部門とデータエンジニアなどの技術部門の同僚との間の溝を埋めます。 データ プロダクト所有者は、ポートフォリオ内のプロダクトが信頼性の特性全体にわたって組織の標準に準拠していることを確認する責任があります。
データプロダクトが満たす必要がある 5 つの重要な特性があります。
- 品質とオブザーバビリティ: データ品質には、正確性、一貫性、信頼性、適時性、およびドキュメントの明確さが含まれます。 データに関する定義された品質メトリックを監視して公開することで、期待されるデータ品質が長期にわたって維持されることを保証できます。 全体的な目標は、データをデータ消費者にとって信頼で きるソースにすることです。
- セマンティック一貫性:レイクハウス アーキテクチャの目標は、データの操作を容易にすることです。 したがって、一緒に使用されることを意図したデータプロダクトは、意味的に一貫している必要があります。 言い換えれば、消費者がこれらのデータプロダクトを意味のある正しい方法で組み合わせることができるように、合意されたガバナンス ルールに従い、用語の定義を共有する必要があります。
- プライバシー:プライバシーとは、データの収集、共有、使用方法に関わる情報の機密性とセキュリティに関するものです。 データプライバシーは通常、規制や法律によって管理されています(例: GDPR、CCPA など)。 データプライバシールールの遵守には、匿名化、暗号化、データレジデンシー、データタグ付け(例: PII)、ストレージを特定の環境に制限し、少数の従業員へのアクセスを最小限に抑えます。
- セキュリティ:情報セキュリティ承認済みのデータ プラットフォームを導入することに加えて、データ プロダクトの所有者は、たとえば、アクセス権限 (データにアクセスできるユーザー、データを共有できるパートナーなど) やデータ プロダクトの許容使用ポリシーを定義する必要があります。
- 発見可能性:データプロダクトは、組織内の全員が見つけられるような方法で公開する必要があります。 これには、中央データカタログや内部データMarketplaceなどの場所が含まれます。 データプロダクトオーナーは、公開されたプロダクトに、データを理解しやすく、他のデータと組み合わせる方法を説 明する資産を含める必要があります(例: サンプルノートブック、ダッシュボードなど)。
データプロダクトライフサイクル
一般的なデータプロダクトのライフサイクルは、次のフェーズで構成されます。
- 開始- ここでは、目的のデータプロダクトのビジネス価値が定義され、所有者が割り当てられます。 モニタリングの目的で、パフォーマンスと品質のメトリクスも定義する必要があります。
- 設計- このフェーズでは、設計仕様やデータ契約などの具体的な詳細が作成され、他のデータプロダクトとの一貫性が確保されます。
- 作成- 実際のデータの作成には、スキーマ、テーブル、ビュー、モデル、任意のファイル (ボリューム)、ダッシュボードなど、およびそれらを作成するパイプラインを含めることができます。 このフェーズには、定義されたデータ コントラクトに対して結果のデータプロダクトをテストすることも含まれます。
- 公開- データプロダクトの作成と公開は、多くの場合同じものとして扱われますが、まったく異なります。 このフェーズには、モデルの展開、共有カタログへのスキーマの公開、データ コントラクトに従ったアクセス権限の管理などのアクティビティが含まれます。公開には、公開されたデータプロダクトのバージョン変更に対するリリース管理が含まれる必要があります。
- 運用と管理- 運用には、品質、権限、使用状況のモニタリングなどの継続的なアクティビティが含まれます。 ガバナンス部分には、コンプライアンス関連のリクエストの処理やデータプロダクトへのアクセスの監査などが含まれます。
- 消費と価値創造- データプロダクトはビジネスでさまざまな問題を解決するために使用されます。 消費者は、プロダクトの使用経験に基づいてデータプロダクト所有者にフィードバックを提供し、将来的にさらなる価値創造を促進する可能性のある機能強化を推奨することができます。
- 廃止- データプロダクトを廃止する理由はいくつか考えられます。たとえば、使用頻度が低い、データプロダクトが準拠していないなどです。 いずれにせよ、データプロダクトは適切に廃止される必要があります。 これは、プロダクトを非推奨にし、消費者に通知し、資産をアーカイブし、リソースをクリーンアップすることを意味します。 ここでは、ダウンストリームの使用状況の可視性が重要になることが多く、リネージが自動的にキャプチャされると大幅に容易になります。
上の図では、データプロダクトオーナーは、データプロダクトの開始から廃止までのすべてのフェーズに対して責任を負います。 ただし、個々のタスクの責任は、データスチュワード、データエンジニアなどの他の関係者と共有できます。
Databricks データ インテリジェンス プラットフォームは、データプロダクトライフサイクルに関係するいくつかのアクティビティに活用できます。
- ETLパイプライン - Delta Live Tables (DLT)を使用すると、堅牢で品質管理されたデータ パイプラインを構築できます。 Auto Loaderとストリーミング テーブルを使用すると、DLT パイプラインまたはDatabricks SQLクエリのブロンズ レイヤーにデータを段階的にロードできます。
- ガバナンス - Databricks Unity Catalogは機能が豊富で、企業全体でシンプルで統一されたガバナンスを可能にするために構築されています。 Catalog Explorer はデータディスカバリーに使用でき、アクセス制御メカニズムにより、対象消費者へのデータプロダクトの公開が容易になります。 リネージとシステムテーブルは自動的に追跡され、運用ガバナンスに不可欠です。
- モニタリング -レイクハウス モニタリングは、データとAI資産の品質をモニタリングするための単一の統合ソリューションを提供します。 このような積極的なアプローチは、データ契約の条件を満たすために必要です。
データプロダクトやデータ契約の設計など、データプロダクトのライフサイクル アクティビティの一部については、現在 Databricks にそれをサポートする機能がありません。 これらのプロセスは Databricks プラットフォームの外部で実行し、データプロダクトが公開されたら結果を Unity Catalog に文書化する必要があります。
データ コントラクト
データ コントラクトは、ドメインを調整し、フェデレーション ガバナンスを実装するための正式な方法です。 データ作成者はそれを提供する必要があります。ただし、消費者を念頭に置いて設計する必要があります。 コントラクトは、すべてのタイプのユーザーが利用できる方法で組み立てる必要があります。
一般的なデータ コントラクトには、次の属性があります
- データの説明(名前、説明、ソース システム、属性の選択など)
- データスキーマ (テーブル、列、匿名化および暗号化情報、フィルター、マスクなど)および データ形式 (半構造化データおよび非構造化データ)
- 使用ポリシー(タグ、PII、ガイドライン、データ所在地など)
- データ品質(適用される品質チェックと制約、品質メトリックなど)
- セキュリティ(データプロダクトの使用を許可されている人物)
- データSLA (最終更新日、有効期限、保存期間など)
- 責任 (オーナー、メンテナー、エスカレーション連絡先、変更プロセスなど)
さらに、ノートブックやダッシュボードなどのサポート資産を提供することで、消費者がデータプロダクトを理解して分析するのを支援し、より容易に導入できるようにすることができます。
データガバナンスチーム
企業内のデータガバナンス チームは通常、ビジネス オーナー、コンプライアンスおよびセキュリティの専門家、データ プロフェッショナルなど、さまざまなグループの代表者で構成されます。 このチームは、コンプライアンスとデータ セキュリティのトピックに関する Center of Excellence (CoE) として機能し、データプロダクトの責任を負うデータ プロダクトオーナーをサポートする必要があります。 彼らは、使用ポリシーを拡張し、データプロダクトの使用を許可する人の決定に影響を与えることで、データ契約の枠組みを定める上で重要な役割を果たします。 大規模な組織の場合、このようなチームは、データ管理オフィスなどのグローバル機能と連携して、データ契約フレーミング プロセスの管理と標準化を支援できます。
公開と認証
データ契約が確立されているにもかかわらず、データプロダクトのガバナンスは、アクセス制御、個人識別情報 (PII) の分類、さまざまな使用ポリシーなどの側面を網羅する広範な主題であり、これらはすべて組織によって異なる場合があります。 しかし、私たちが観察した一貫し た傾向の 1 つは、データプロダクトの公開に関するものです。 消費者が遭遇するデータセットの数が増えるにつれて、データがキュレーションされ、標準化され、正式に使用が承認されているという保証が必要になることが多くなります。 たとえば、大規模な組織内のレポート作成やマスター データ管理のユース ケースでは、企業内のさまざまなデータ資産間で高度なセマンティック一貫性と相互運用性が必要になる場合があります。
ここで、データプロダクトの「認証」という概念が、特定のデータプロダクトにとって価値を持つようになります。 このプロセスでは、データ プロデューサーは最初にデータ契約仕様を提案し、通常はデータガバナンス管理者またはチームによるレビューを受けます。 承認されると、継続的インテグレーション/継続的デプロイメント ( CI/CD ) プロセスを実行して、顧客のクラウド ストレージ アカウントにデータを物理的に書き込む本番運用パイプラインをデプロイできます。 このデータは公開され、Unity Catalog テーブル、ビュー、または非表形式データのボリュームを通じて簡単に検出できます。 このコンテキストでは、Unity Catalog は、データプロダクトの認証ステータスと詳細を示すために、タグとマークダウンの使用をサポートしています。
顧客によっては、包括的なガイドと使用例を添えて Databricks Marketplace に対応する プライベート リスト を公開し、認定データプロダクトを宣伝することを選択する場合もあります。さらに、 DatabricksのREST APIsと、 Alation 、Atlan、Collibra などのエンタープライズ カタログ ソリューションとの統合により、 Databricks外部のチャネルも含め、複数のチャネルを通じて認定データプロダクトを簡単に見つけられるようになります。
まとめ
大規模な企業環境では、データプロダクトとデータ契約を策定することは複雑な作業になる可能性があります。 データとのインターフェースのための新しいテクノロジーの出現と、現代のビジネスおよび規制要件により、データプロダクトと契約の仕様は継続的に進化しています。 現在、 Databricks MarketplaceとUnity Catalogデータコンシューマー向けのデータディスカバリーおよびオンボーディングエクスペリエンスのコアコンポーネントとして機能しています。 データプロデューサー向けに、 Unity Catalogリネージ、監査、アクセス制御などの重要なエンタープライズガバナンス機能を提供します。
データが単純なテーブルやダッシュボードを超えてAIモデルやストリームなどを網羅するようになるにつれ、顧客はすべての主要ユーザー ペルソナに対してDatabricks上で統一された一貫したガバナンス エクスペリエンスのメリットを享受できるようになります。
このブログで取り上げたエンタープライズ データプロダクトの主要な側面は、このトピックに取り組む際の指針として役立ちます。 Databricks データ インテリジェンス プラットフォームを使用して高品質のデータプロダクトを構築する方法の詳細については、Databricks の担当者にお問い合わせください。