背景:データデリバリーの近代化
今日の企業のデータ資産は、10年前とは大きく異なっています。各業界のアナリティクスは、モノリシックなデータプラットフォーム(リレーショナル・データベースやデータウェアハウス・アプライアンスなど)から、分散型でスケーラブルな、ほぼ無限のコンピューテ ィングおよびストレージ機能(データレイクなど)へと移行しています。また、データは指数関数的なペースで増加しており、相互運用性の新たな機能を推進し、これまで以上に接続されたエコシステムを構築し、データが私たちの生活様式を形成する新たな機会を引き出しています。
データ資産のこの劇的な変化は、急速なペースで指数関数的なデータ配信の課題に対応するための新しい方法を見つける必要性をチームに促しています。その結果、データメッシュのようなフレームワークが人気を博し、成功を収めています。その中核となるデータメッシュは、セルフサービスによるデータデリバリーでビジネスチームのボトルネックを軽減し、「データを製品として」扱うことで、データインサイトの最大化を図り、規模を拡大し、競争力を高め、イノベーションを推進することを目的としています。
ドメインがデータパイプラインのオーナーシップを持ち、標準化によってドメイン間のコラボレーションを可能にし、データとメタデータを発見可能にし、セルフサービスのためにデータを民主化します。
ボトルネック:PHIを含むデータの民主化
民主化されセルフサービス化されたデータは、個人を特定できる情報(PII)を保護する上で直感に反します。医療機関では、個人の健康状態や病歴に関連するPIIのサブセットである保護医療情報(PHI)に関する規制要件に直面しています。多くの場合、データエンジニアリング、データ分析、データサイエンスのチームは、職務を遂行するため にPHIに完全にアクセスする必要はないため、PHIを見る能力を持つべきではありません。組織は、データのマスキング(再識別化不可)、トークン化による再識別化(多くの場合、サードパーティのソフトウェアの購入を伴う)、および/または面倒なガバナンスポリシーなどの回避策を作成する負担で、提供能力を大幅に阻害しています。
下流のチーム(例えば、臨床ケア提供チーム)がその職務を遂行するためにPHIを必然的に必要とする場合、さらに複雑な問題が生じます。この場合、データの再識別が必要となり、企業のセキュリティと一致しない追加ステップが発生します。このような追加ステップは、納品スケジュールを大幅に阻害し、データエステートにおける摩擦を増大させます。
Unityカタログによるデータブリックス内の機密情報の管理
PHIとデータガバナンスに対する前述のソリューションは、企業戦略のアプリケーション開発レベルで適用される応急処置です。そのため、リスクが高く、今日のデータ資産を拡張することはできません。従来のデータレイクでは、セキュアなデータガバナンスモデルとエンタープライズ統合が欠如していることが、スケールを制限する大きな要因となっています。
Databricks Unity Catalogは、データベースとデータウェアハウスのガバナンスをデータレイクの安価なクラウドストレージに直接導入し、企業のアクセスとコントロールを可能にすることで、スケールを解決し、リスクを低減することを目的としています。その結果、完全に統合され、プラットフォームレベルで適用される一貫性のある1つのモデルが実現します。
CMSのPHIデータを大規模に保護するためのPublic Use Filesを使って、これがどのようなものかを示してみましょう。
Data Explorerで受益者(メンバー)テーブルを見ると、生年月日、性別、住所情報などのPHIカラムがあります。
そして、データはテーブルにアクセスできるユーザが見ることができます。
では、これらの列のPHIを、職務上必要な人にのみ見えるようにするにはどうすればよいでしょうか?
例えば、私の組織には "pii_viewers "というエンタープライズグループがあり、そのグループには、職務上PHIにアクセスする必要のある個人のみが含まれているとします。この場合、データセットを複製したりビューを作成したりすることなく、列単位でこのセキュリティを適用することができます。この例では、生年月日カラムに注目してみましょう。
現在、私は "pii_viewer" というグループに属していないため、データを照会してもこのデータを見ることができません。
このデータを他のテーブルに派生させた後でも、列のアクセス許可は保持されます。
セキュアなデータの民主化
上記のコードは非常に短くシンプルなもので あるにもかかわらず、この機能はPHIのような機密情報を保護し、データ資産を民主化します、 この機能は、PHIのような機密情報を保護し、データ資産と製品を民主化し、コードと労働力で拡張する代わりにインフラストラクチャでコンプライアンスを拡張する、非常に強力な機能を引き出します。
合理化されたデータアクセス制御は、より生産的なチームとより高いコンプライアンスにつながり、企業のデータ資産の可能性を最大限に引き出します。
Unity Catalog について詳しくはこちら。