データガバナンス
データを効率的に管理し、データの価値を最大限に活用するためのプロセス、ポリシー、技術を包括的なガイドで説明します。
はじめに
データガバナンスとは
データガバナンスは、組織のデータ資産をそのライフサイクルを通じて管理するための原則、プラクティス、ツールからなる包括的なアプローチです。データ関連の要件をビジネス戦略と整合させるこ とで、データガバナンスは組織全体にわたって優れたデータ管理、品質、可視性、セキュリティ、コンプライアンス機能を提供します。効果的なデータガバナンス戦略を導入することで、企業は不正アクセスからデータを保護し、規制要件へのコンプライアンスを確保しながら、データ主導の意思決定のためにデータを容易に利用できるようになります。
Databricks についてさらに詳しく
ビジネスにおけるデータガバナンスのメリット
データガバナンスは、組織にとって重要な資産であるデータの価値を引き出すために不可欠です。堅牢なデータガバナンスアプローチを導入することで、企業はデータ資産を活用し、競争力を高め、健全なデータとプライバシーの実践を保証することで顧客の信頼を築き、維持できます。
運用効率の向上とコスト削減
効果的なデータガバナンスにより、組織はデータエステートの信頼できる唯一の情報源を作成し、データの無秩序な拡散やサイロ化を防ぎ、重複を削減できます。これにより、効率性が向上してコストを削減し、データエステート全体のセキュリティとガバナンスの概念が管理しやすくなります。
生産性の向上と迅速な意思決定
データガバナンスは、データの正確性、一貫性、信頼性を確保することで、データの民主化を促進します。データ利用者が高品質なデータを迅速に見つけ、データの意味や文脈をより深く理解することで、生産性の向上と意思決定の迅速化につながります。
コラボレーションと価値実現の強化
強力なデータガバナンスプログラムは、チーム、事業部門、パートナーを横断してデータのコラボレーションと共有を強化するための基盤を築きます。これにより、組織は知識の共有を促進し、よりよいデータ文化を構築できるようになり、イノベーションの拡大やより優れた意思決定、データの価値の最大化につながります。
セキュリティとプライバシーの強化
データガバナンスは、機密データへの不正アクセスや悪用を防止するためのコントロールとプロセスを導入することで、セキュリティとプライバシーのリスクを軽減します。ステークホルダーとの信頼と透明性を重視する文化を促進します。
規制や基準へのコンプライアンスの向上
効果的なデータガバナンスは、HIPAA、FedRAMP、GDPR、CCPA などの規制要件へのコンプライアンスの向上につながります。これにより、組織の評判を守り、潜在的な財務的・法的影響を回避し、ステークホルダーの信頼を高めることができます。
データガバナンスの主要な要素
データのカタログ化
効果的なデータガバナンスには、組織内に存在するデータに関する知識が必要です。そこでデータカタログの出番です。データカタログは、組織のデータ資産のための一元的なメタデータリポジトリを提供します。データカタログにより、ステークホルダーは必要なデータを迅速に発見、理解し、アクセスできるようになり、データディスカバリー、ガバナンス、分析などのデータ関連活動が向上します。フォーマット、構造、場所、使用方法に関する情報を含む、利用可能な全てのデータの検索可能なインデックスとして機能し、識別できない情報の海に意味的価値を提供します。データカタログをガバナンスプログラムに組み込むことで、組織はデータ管理を改善し、コラボレーションを強化し、冗長性を削減し、適切なアクセス制御と監査による情報検索を確保できます。
データ品質
今日のデータ主導の世界では、正確な分析、情報に基づく意思決定、費用対効果を高めるために 、高いデータ品質を確保することが極めて重要です。データ品質は、データ主導の意思決定の信頼性に直接影響し、データガバナンスの重要な側面となります。効果的なデータガバナンスを維持するために、組織は正確性、完全性、鮮度、データ品質ルールへの準拠など、主要なデータ品質属性の評価を優先する必要があります。そのため、データガバナンス戦略では、データ品質に強くフォーカスすることが不可欠です。データ品質を高めることは、データリネージを追跡し、データ品質ルールを実施し、変更を追跡するのに役立ちます。データ品質が低いために、ビジネス上の意思決定やリソースの割り当てに支障をきたすことがないように、データガバナンスの重要な一部としてデータ品質を優先させ、より優れた成果を得られるようにしましょう。
データの分類
データの分類は、データの機密性、価値、重要性に基づいてデータを整理、分類するデータガバナンスの重要な部分です。データの急激な増加に伴い、企業は機密データの保護、リスクの軽減、データ品質の確保に対する懸念を高めています。分類により、組織はリスクレベルと重要性に基づいてデータを識別・分類し、適切なセキュリティ対策とポリシーを適用できます。堅牢なデータ分類システムは、データガバナンスを強化し、リスクを低減し、規模に応じたデータ品質と保護を保証します。
データセキュリティ
組織は、機密データを不正アクセスから保護することを優先しつつ、知見やビジネス価値を高めるために、チームに高品質なデータアクセスを付与することの重要性を理解しています。効果的なデータアクセス管理は、データセキュリティとガバナンスにとって極めて重要であり、優れたデータセキュリティガバナンスプログラムには、どのグループまたは個人がどのデータにアクセスできるかを定義するアクセス制御が含まれている必要があります。これらのコントロールは、個々のレコードやファイルに至るまで、非常に具体的に行うことができます。GDPR や CCPA のようなデータ侵害や規制がリスクを増大させる中、企業は、誰が機密データセットにアクセスできるのか、不正使用をどのように追跡するのかを定義する明確なガバナンスポリシーを確立する必要があります。個人情報や機密情報への不正アクセスは発生させず、データを保護し、顧客の信頼を維持するためには、効果的なアクセス管理戦略の導入が不可欠です。
データ権限とアクセスの監査
効果的なデータアクセスの監査は、データガバナンスとセキュリティガバナンスプログラムの重要な側面であり、特に規制が厳しい業界では不可欠です。誰がどのデータにアクセスできるかを把握し、最近のアクセス状況を追跡することで、組織は権限のないユーザーやグループを積極的に特定し、それに応じてアクセスを調整でき、データの悪用リスクを最小限に抑えられます。適切な監査の仕組みがなければ、組織はリスク範囲を十分に把握できず、データ漏洩や規制の不遵守に対して脆弱なままになってしまう可能性があります。そのため、データガバナンスやセキュリティガバナンスの組織内で適切に構築された監査チームは、データセキュリティを確保し、GDPR や CCPA などの規制に準拠する上で重要な役割を果たします。効果的なデータアクセスの監査戦略を導入することで、組織は顧客の信頼を維持し、不正アクセスや悪用からデータを保護できます。
データリネージ
データリネージは、データソースとデータ使用に関する理解を深めることで、組織がデータ品質と信頼性を確保するのに役立つ強力なツールです。データのライフサイクル全体を通じて関連するメタデータとイベントをキャプチャし、組織のデータエステート全体におけるデータの流れをエンドツーエンドで把握できます。実用的なデータガバナンス戦略の重要な柱として、データリネージは、組織がコンプライアンスと監査に対応できるようにし、手動で監査証跡を作成する運用上のオーバーヘッドを削減し、監査レポートのための信頼できるソースを提供します。さらに、データリネージは、データ利用者がより適切な分析を実行できるようにし、データチームがあらゆるエラーの根本原因分析を実行できるようにすることで、デバッグ時間を大幅に短縮します。
データディスカバリー
組織がさまざまなソースから大量のデータを収集し続ける中で、分析、AI、ML のユースケースのためにデータを容易に発見できるようにすることがますます重要になっています。これは、データの民主化を加速させ、データの真の価値を引き出すために非常に重要です。さらに、ダッシュボード、機械学習モデル、クエリ、ライブラリ、ノートブックなどの最新のデータ資産の出現により、データディスカバリーは、堅牢なデータガバナンス戦略の重要な柱となっています。組織は、データディスカバリーをデータガバナンス戦略の基本的な側面として捉える必要があります。データチームは組織全体のデータ資産を容易に検索し、さまざまなプロジェクトでコラボレーションを行い、迅速かつ効率的にイノベーションを促進できます。これにより、データの重複を防ぐことができます。重複したデータを維持するにはコストがかかり、異なるセキュリティレベルでのガバナンスの課題を引き起こす可能性があります。
データの共有とコラボレーション
今日のビジネス環境において、データの共有とコラボレーションは不可欠な要素であり、組織は複数のクラウド、データプラットフォーム、リージョンにわたって、社内チーム、社外パートナー、顧客とデータを交換しています。外部データへの需要が増大し続ける中で、組織にとって機密情報がどのように使用されているかを管理・可視化しながら、データを安全に交換 することは非常に重要です。データクリーンルームは、安全かつ管理されたデータコラボレーションにおいて重要な役割を果たし、データプライバシー規制を確実に守ります。データ主導型のイノベーションのニーズを満たすためには、オープンフォーマット、相互運用性、マルチクラウドのデータ共有技術への投資が不可欠です。さらに、データマーケットプレイスはデータプロバイダーと消費者の橋渡し役となり、データセットの発見と流通を促進します。そのため、データ共有はビジネスにおいて必要なものであり、堅牢なデータガバナンス戦略の重要な柱であることを再認識することが重要です。
優れたデータガバナンスソリューション
データ重視の組織は、データ、分析、AI を優先してビジネス成果を推進し、データ、分析、AI を単一のプラットフォーム上で統合するデータレイクハウスアーキテクチャを中心にデータ戦略を構築します。このアーキテクチャは、データウェアハウスとデータレイクの長所を組み合わせ、データ、分析、AI のあらゆるユースケースをサポートします。全てのデータはクラウドデータレイクに保存され、統合レイヤーで管理されるため、データの単一コピーに対して直接分析を実行できます。このアプローチにより、データガバナンスとセキュリティが簡素化され、機能のサイロが減り、コラボレーションが容易になります。データに対する高い信頼性を確立することで、組織は自信を持って運営でき、あらゆる分析ワークロードでデータがどのように取得、変更、使用され、影響を受けるかをよりよく理解できます。
データレイクハウスのデータガバナンスソリューションには、次のような多くの重要な機能が含まれています。
- 一元化されたデータカタログ:一元化されたデータカタログは、全てのデータ、ML モデル、分析アーティファクト、各オブジェクトのメタデータが格納されます。また、既存の Hive メタストアなど、他のカタログからのデータも統合されます。
- 統合データアクセス制御:あらゆるデータ資産やクラウドにわたる単一の統合型権限モデルです。個人を特定できる情報(PII)に対する属性ベースアクセス制御(ABAC)が含まれます。
- データの監査:データアクセスは、アラートと監視機能によって一元的に監査され、アカウンタビリティとセキュリティが促進されます。
- データの品質管理:品質管理、テスト、監視、実施を組み込んだ堅牢なデータ品質管理により、正確で有用なデータの利用が可能になります。
- データリネージ:データリネージにより、レイクハウスのデータの流れをソースから消費、さらにはカラムレベルに至るまでエンドツーエンドで可視化します。
- データディスカバリー:容易なデータディスカバリーにより、データサイエンティスト、アナリスト、エンジニア、 ステークホルダーが関連データを迅速に発見、参照し、価値創出までの時間を短縮します。
- データの共有とコラボレーション:クラウド、リージョン、プラットフォーム間で、きめ細かなアクセス制御を行いながらデータを共有し、サイロ化を防ぎます。
- プライバシーに配慮したコラボレーションのためのデータクリーンルーム:プライバシーを保護する環境で、社内外のステークホルダーと機密データに関するコラボレーションを実現します。
- データ、分析、AI のためのオープンマーケットプレイス:データセットや、ML モデル、ノートブック、アプリケーション、ダッシュボードなどの AI や分析資産を、独自のプラットフォームへの依存や複雑な ETL、高価なレプリケーションなしに発見、アクセス、展開できます。
データガバナンスの監督者
最高データ責任者(CDO)
最高データ責任者(CDO)は、ガバナンスチームで最も上級の幹部です。最終的には、データのセキュリティ、アクセシビリティ、ユーザビリティに責任を持つことになります。
CDO の役割には、システムのセットアップ、運用のための資金とスタッフの確保(および一部のプロセスを自動化するツールなどの関連事項)、全体的な状況の定期的なチェックが含まれます。
データの所有者
データの所有者は、データセットの技術的管理に責任を持つ個人またはチームです。どのチームメンバーがどのような情報にアクセスするべきかを決定することがあります。そのポリシー(またはその欠如)がデータ漏洩につながった場合、責任を問われる可能性があります。
この役割と多くの責任を果たすため、データの所有者は通常、組織の上級メンバーであることが多いです。
データスチュワード
データガバナンスワークフローの日々の運用を支援するために、データの所有者と CDO はデータスチュワードを任命します。データスチュワードシップは、基本的には定められたプログラムを実施し、新旧両方のデータが適切に管理されるようにすることです。従業員と顧客のコンプライアンスを監視し、問題が発生した場合はエスカレーションを行います。
データガバナンス委員会
この委員会は、組織内の関連方針を作成する主要機関となります。
多くの場合、データのセキュリティとユーザビリティに強い関心を持つ上級幹部やデータの所有者で構成されます。方針が承認されれば、スチュワードが従うべき手順を策定し、関係者間の紛争を解決することもあります。
データ管理とデータガバナンスの違い
効果的なデータ管理とデータガバ ナンスは、データを扱うあらゆる組織にとって極めて重要です。これらの用語はしばしば同じように使用されていますが、両者には明確な違いがあります。データ管理は、データの取り込み、統合、整理、変換、バックアップ、検索、アーカイブなどの永続化といったデータライフサイクル管理の技術的側面に重点を置いています。一方、データガバナンスは、データ関連の要件がビジネス戦略と整合していることを保証するために、組織のポリシー、フレームワーク、ツールを定義することです。これには、データの正確性、一貫性、規制への準拠、組織内のポリシー、さらにデータの品質、セキュリティ、プライバシー、監査、リスク管理などが含まれます。さらに、データガバナンスには、データの所有権や役割と責任を定義し、組織全体で方針と手順を実施することが含まれます。データを戦略的資産として活用する長期的なデータ戦略の柱として、データガバナンスは重要な役割を果たし、データマネジメントはその戦略を実現するための運用面を扱います。