メインコンテンツへジャンプ

背景:データデリバリーの近代化

今日の企業のデータ資産は、10年前とは大きく異なっています。各業界のアナリティクスは、モノリシックなデータプラットフォーム(リレーショナル・データベースやデータウェアハウス・アプライアンスなど)から、分散型でスケーラブルな、ほぼ無限のコンピューティングおよびストレージ機能(データレイクなど)へと移行しています。また、データは指数関数的なペースで増加しており、相互運用性の新たな機能を推進し、これまで以上に接続されたエコシステムを構築し、データが私たちの生活様式を形成する新たな機会を引き出しています。

データ資産のこの劇的な変化は、急速なペースで指数関数的なデータ配信の課題に対応するための新しい方法を見つける必要性をチームに促しています。その結果、データメッシュのようなフレームワークが人気を博し、成功を収めています。その中核となるデータメッシュは、セルフサービスによるデータデリバリーでビジネスチームのボトルネックを軽減し、「データを製品として」扱うことで、データインサイトの最大化を図り、規模を拡大し、競争力を高め、イノベーションを推進することを目的としています。

ドメインがデータパイプラインのオーナーシップを持ち、標準化によってドメイン間のコラボレーションを可能にし、データとメタデータを発見可能にし、セルフサービスのためにデータを民主化します。

ボトルネック:PHIを含むデータの民主化

民主化されセルフサービス化されたデータは、個人を特定できる情報(PII)を保護する上で直感に反します。医療機関では、個人の健康状態や病歴に関連するPIIのサブセットである保護医療情報(PHI)に関する規制要件に直面しています。多くの場合、データエンジニアリング、データ分析、データサイエンスのチームは、職務を遂行するためにPHIに完全にアクセスする必要はないため、PHIを見る能力を持つべきではありません。組織は、データのマスキング(再識別化不可)、トークン化による再識別化(多くの場合、サードパーティのソフトウェアの購入を伴う)、および/または面倒なガバナンスポリシーなどの回避策を作成する負担で、提供能力を大幅に阻害しています。

下流のチーム(例えば、臨床ケア提供チーム)がその職務を遂行するためにPHIを必然的に必要とする場合、さらに複雑な問題が生じます。この場合、データの再識別が必要となり、企業のセキュリティと一致しない追加ステップが発生します。このような追加ステップは、納品スケジュールを大幅に阻害し、データエステートにおける摩擦を増大させます。

Unityカタログによるデータブリックス内の機密情報の管理

PHIとデータガバナンスに対する前述のソリューションは、企業戦略のアプリケーション開発レベルで適用される応急処置です。そのため、リスクが高く、今日のデータ資産を拡張することはできません。従来のデータレイクでは、セキュアなデータガバナンスモデルとエンタープライズ統合が欠如していることが、スケールを制限する大きな要因となっています。

Databricks Unity Catalogは、データベースとデータウェアハウスのガバナンスをデータレイクの安価なクラウドストレージに直接導入し、企業のアクセスとコントロールを可能にすることで、スケールを解決し、リスクを低減することを目的としています。その結果、完全に統合され、プラットフォームレベルで適用される一貫性のある1つのモデルが実現します。

CMSのPHIデータを大規模に保護するためのPublic Use Filesを使って、これがどのようなものかを示してみましょう。

Data Explorerで受益者(メンバー)テーブルを見ると、生年月日、性別、住所情報などのPHIカラムがあります。

データエクスプローラ

そして、データはテーブルにアクセスできるユーザが見ることができます。

PHI

では、これらの列のPHIを、職務上必要な人にのみ見えるようにするにはどうすればよいでしょうか?

例えば、私の組織には "pii_viewers "というエンタープライズグループがあり、そのグループには、職務上PHIにアクセスする必要のある個人のみが含まれているとします。この場合、データセットを複製したりビューを作成したりすることなく、列単位でこのセキュリティを適用することができます。この例では、生年月日カラムに注目してみましょう。

データクエリー

現在、私は "pii_viewer" というグループに属していないため、データを照会してもこのデータを見ることができません。

データ・ダウンストリーム

このデータを他のテーブルに派生させた後でも、列のアクセス許可は保持されます。

下流

セキュアなデータの民主化

上記のコードは非常に短くシンプルなものであるにもかかわらず、この機能はPHIのような機密情報を保護し、データ資産を民主化します、 この機能は、PHIのような機密情報を保護し、データ資産と製品を民主化し、コードと労働力で拡張する代わりにインフラストラクチャでコンプライアンスを拡張する、非常に強力な機能を引き出します。

合理化されたデータアクセス制御は、より生産的なチームとより高いコンプライアンスにつながり、企業のデータ資産の可能性を最大限に引き出します。

Unity Catalog について詳しくはこちら

Databricks 無料トライアル

関連記事

Databricks Unity CatalogはAmgenのエンタープライズ規模でのデータガバナンス実現にどのように貢献したか

July 5, 2023 Jaison DominicLakhan Prajapati による投稿 in 導入事例
翻訳:Motokazu Ishikawa - Original Blog Link このブログは、Amgen社の情報システム担当シニアマネージャーであるJaison Dominic氏と、ZS Associates社のアーキテクチャ・エンジニアリング担当ディレクターであるLakhan Prajapati氏によって執筆されました。 世界最大の独立系バイオテクノロジー企業である Amgen は、長い間イノベーションの代名詞でした。40年にわたり、新しい医薬品製造プロセスを開拓し、命を救う医薬品を開発し、世界中の何百万人もの人々の生活にプラスの影響を与えてきました。 データとAIは、当社の事業戦略にとって極めて重要です。当社の企業内にデータが豊富にあることを認識し、当社のビジョンは、セルフサービスのガバナンス機能を通じてデータ分析にアクセスできるデータ主導型の組織を確立することでした。モダナイゼーションを追求する中で、当社はデジタルトランスフォーメーションの旅の基盤として Databricks Lakehouse Pla

Data and AI Summit 2023におけるUnityカタログの最新情報

翻訳:Junichi Maruyama. - Original Blog Link データ管理に不可欠な、説明責任、コンプライアンス、品質、透明性といったガバナンスの基本原則は、今やAIにとっても同様に不可欠なものとなっています。Databricksは Unity Catalog で、クラウドとデータプラットフォームにわたるデータとAIガバナンスのための業界唯一の統合ソリューションをリリースすることで、先駆的なアプローチを取りました。 組織はUnity Catalogを使用することで、あらゆるデータプラットフォームやクラウドでファイル、テーブル、MLモデル、ノートブック、ダッシュボードを安全に発見、アクセス、監視、コラボレーションすることができます。 私たちは、 Lakehouse Federation 、 Governance for AI 、AIを活用したガバナンス( Lakehouse Monitoring、Lakehouse Observability...

Unity Catalogにおけるデータ権限モデルとアクセス制御のためのヒッチハイカーズガイド

The Hitchhiker's Guide to data privilege model and access control in Unity Catalog 翻訳: junichi.maruyama データの量、速度、多様性が増すにつれ、組織は、中核となるビジネス成果を適切に満たすために、確固たるデータガバナンスの実践にますます頼るようになっています。 Unity Catalog は、Databricks Lakehouseを支えるデータとAIのためのきめ細かなガバナンス・ソリューションです。データアクセスを管理・監査するための一元的なメカニズムを提供することで、企業のデータ資産のセキュリティとガバナンスを簡素化することができます。 Unity Catalogがファイル、テーブルの権限モデルを統一し、すべての言語をサポートするようになる以前、お客様は レガシーワークスペースレベルのテーブルACL(TACL)...
業界一覧へ