メインコンテンツへジャンプ

一般提供を発表:Unity Catalog でのデータリネージ

Share this post

本日、AWS と Azure で利用可能な Unity Catalog において、データリネージの一般提供を開始したことをお知らせします。データリネージの一般提供により、Databricks レイクハウスプラットフォーム上のミッションクリティカルなワークロードに対して、最高レベルの安定性、サポート、エンタープライズレディネスを期待することができます。データリネージガイド(AWS | Azure)を参照してください。

このブログでは、データリネージを実用的なデータガバナンス戦略の重要な手段として活用する方法、GA リリースで利用できる主要機能の一部、および Unity Catalog でデータリネージを開始する方法について説明します。

データリネージでデータの観測性とコンプライアンスを向上させる

Unity Catalog は、データ、分析、AIのための統合ガバナンスソリューションで、データチームがすべてのデータとAI資産をカタログ化し、ANSI SQL に基づく使い慣れたインターフェースを使用してきめ細かいアクセス許可を定義し、データアクセスの監査、クラウド、リージョン、データプラットフォーム間でのデータの共有ができるようにします。

Unity Catalog でデータリネージを自動化することで、データチームは、コンプライアンス要件や監査レポートのために機密データを自動的に追跡し、全てのワークロードでデータ品質を確保し、レイクハウス全体でデータ変更の影響分析や変更管理を行い、データパイプラインのエラーの根本原因分析を実施できるようになりました。データリネージの一般的な使用例については、以前のブログで詳しく説明しています。

「データリネージのおかげで、私たちのデータセットが誰にどのように利用されているかを把握できるようになりました。これは基本的なドキュメントとしてだけでなく、データセットの変更や廃止によって影響を受ける人物を特定し、インシデントを削減する役割も果たしています。」(Edmunds 社 スタッフエンジニア Sam Shuster 氏)
「リネージは、アクセス制御のための最後の重要な要素です。アナリストは、別の環境でテーブルやデータセットを再作成する場合でも、全ての使用基準とアクセス制御を守りながら、データを活用して仕事をすることができます。」( Grammarly 社 データプラットフォームマネージャー、Chris Locklin 氏)
「リネージは、エキスパートが、データがどこから来て、どのような変換を経て、プロジェクト期間中どのように使用されるかを確認するのに役立ちます。この文書化されたエンドツーエンドのプロセスは、標準的な保険数理プロセスを補完するものです。」(Milliman 社 クラウドソリューションアーキテクト Dan McCurley 氏)

GA リリースで利用可能なデータリネージの主な機能

自動化されたリアルタイムのリネージ:Unity Catalog は、あらゆる言語(Python、SQL、R、Scala)、実行モード(バッチ、ストリーミング)で実行されたクエリのデータフロー図を自動的に取得し、リアルタイムに表示します。リアルタイムのリネージにより、データフローの証跡を手動で作成する運用上のオーバーヘッドを削減します。Unity Catalog メタストアに接続されたすべてのワークスペースにおいて、データリネージは自動的に集約されます。これは、あるワークスペースで取得したリネージを、同じメタストアを共有する他のワークスペースで見ることができることを意味します。

統一されたカラムとテーブルの系統グラフ:Unity Catalog では、1 つの系統グラフで列と表の両方の系統を確認できるようになり、特定の表や列が何で構成され、データがどこから来るのかをよりよく理解できるようになりました。ユーザーは、数回のクリックで、上流または下流の系統グラフを移動し、完全なデータフロー図を見ることができます。

Table and column lineage in Unity Catalog
Unity Catalog のテーブルとカラムの系統

テーブルやカラムの枠を超える:Unity Catalog は、ノートブック、ワークフロー、およびダッシュボードの系統も追跡します。これにより、組織内でのデータの使用方法に関するエンドツーエンドの可視性が向上し、データの変更が下流の消費者に与える影響を把握することができます。

Lineage for notebooks, workflows and dashboards
ノートブック、ワークフロー、ダッシュボードのリネージ

ビルトインセキュリティ:系統グラフはデフォルトで安全であり、Unity Catalog の共通権限モデルを使用しています。ユーザーは、系統データフロー図を表示するために正しい権限を持っている必要があり、セキュリティのレイヤーを追加して、意図しないデータ侵害のリスクを低減します。たとえば、ユーザーがテーブルの SELECT 権限を持っていない場合、そのテーブルの血統を調べることはできません。同様に、ノートブック、ワークフロー、ダッシュボードの系統情報も、閲覧権限を持っているユーザーだけが見ることができます。

Built-in security for lineage graphs
リネージグラフ用の組み込みセキュリティ

パートナーとの連携:Unity Catalog は、Unity Catalog REST API を通じて、さまざまなデータガバナンスパートナーとの豊富な連携を実現しており、系統情報を容易にエクスポートすることが可能です。

Unity Catalog でデータリネージを始める

デモで、データリネージを実際にご覧いただけます。

データリネージは、Databricks Premium および Enterprise Tier に追加費用なしで含まれています。Unity Catalog メタストアを参照するすべてのワークロードは、デフォルトでデータリネージが有効になり、Unity Catalog を読み書きする全てのワークロードは、自動的にリネージをキャプチャするようになりました。自動的にキャプチャされたデータリネージを利用するには、2022年12月7日以前に起動したクラスタまたは SQL Warehouses を再起動させてください。既に Databricks アカウントをお持ちの場合は、データリネージガイド(AWS | Azure)に従って開始することができます。既存の Databricks のお客様でない場合は、Premium または Enterprise ワークスペースでの無料トライアルにご登録ください。

Databricks 無料トライアル

関連記事

プラットフォームブログ一覧へ