データガバナンス
Databricks 無料トライアル
データガバナンスとは
データガバナンスとは、データがビジネス戦略に沿った価値をもたらすよう、組織内のデータを統制することを意味します。単なるツールやプロセスにとどまらず、人、プロセス、技術、データを包括するフレームワークを用いてデータを統制し、ビジネスの目標達成を支援するものです。
ビジネスにおけるデータ ガバナンスのメリット
データの量と複雑さの増大に伴い、コアビジネスの強化につながるデータガバナンスに注目しています。データガバナンスはビジネスに次のようなメリットをもたらします。
- データの品質:分析と機械学習の基盤としての一貫した高いデータ品質。
- 迅速な知見取得:知見を得るまでの時間が短縮されます。
- リスク、コンプライアンスへの対応:HIPPA、FedRAMP、GDPR、CCPA などの業界規制のリスクおよびコンプライアンス要件に対応します。
- データの民主化:組織内の全てのユーザーによるデータドリブンな意思決定を可能にします。
- コストの最適化:大規模なクラスタの立ち上げの制御や、ガードレールによる高コストな GPU インスタンスの使用の制限など、コストの効率化を図ります。
優れたデータガバナンスソリューション
データドリブンな企業の多くが、分析のためのデータアーキテクチャをレイクハウスを基盤として構築しています。データレイクハウスは、データレイクの膨大な量のデータに対する効率的でセキュアなデータエンジニアリング、機械学習、データウェアハウス、BI を可能にするアーキテクチャです。データレイクハウスのデータガバナンスには、次のような機能が含まれています。
- 統合カタログ:統合カタログには、あらゆるデータや機械学習モデル、分析アーティファクト、各データオブジェクトのメタデータが格納されます。また、既存の Hive メタストアなど、他のカタログからのデータも統合されます。
- 統合データアクセス制御:あらゆるデータ資産やクラウドをまたがる単一の統合型権限モデルです。個人を特定できる情報(PII)に対する属性ベースアクセス制御(ABAC)が含まれます。
- データの監査:データアクセスは、アラートと監視機能によって一元的に監査され、アカウンタビリティが促進されます。
- データの品質管理:ビルトインの品質管理、テスト、監視、実施機能を備えた堅牢なデータ品質管理により、ダウンストリームの BI、分析、機械学習のワークロードにおける正確で有用なデータの利用が可能になります。
- データのリネージ:データリネージにより、レイクハウスのデータフローをソースから消費までエンドツーエンドで可視化できます。
- データディスカバリ:使いやすいデータディスカバリにより、データサイエンティスト、データアナリスト、データエンジニアは関連データを迅速に発見、参照し、価値創造までの時間を短縮できます。
- データの共有:クラウドやプラットフォームをまたがるデータの共有が可能です。
データ管理とデータガバナンスの違い
データ管理は、信頼性のあるデータを提供するために、データガバナンスのポリシーや原則、基準に準拠することを重要視した実務です。データ管理は通常、プロジェクト中心の短期的なものです。一方、データガ バナンスは、長期的なメリットの実現を目指すプログラムとして扱われます。ガバナンスの実施には、一元化されたガバナンスツールが重要な役割を果たします。
Databricks が提供するデータガバナンスとデータ共有の詳細
- Databricks の Unity カタログ
- Databricks の Delta Sharing