翻訳: Masahiko Kitamura
オリジナル記事:Build governed pipelines with Delta Live Tables and Unity Catalog
Delta Live Tables(DLT)のUnity Catalogサポートのパブリックプレビューを発表できることを嬉しく思います。このプレビューにより、どのようなデータチームでも、Delta Live Tablesによって生成されたデータ資産に対して、きめ細かいデータガバナンスポリシーを定義し、実行することができます。私たちは、データエンジニアリングパイプラインにUnity Catalogのパワーをもたらします。パイプラインとDelta Live Tablesは、他のUnity Catalogアセットと一緒にガバナンスと管理ができるようになりました。
Unity CatalogとDelta Live Tablesでデータエンジニアリングに革新を
Unity Catalogは、レイクハウスアーキテクチャ( lakehouse architectures )向けに設計された包括的なデータガバナンスソリューションです。S3、ADLS、GCSなどのデータレイクは、そのスケーラビリティと費用対効果の高さから、膨大なデータの保存と処理に普及している。しかし、データレイクにおけるガバナンスの管理は課題となっている。Unity Catalogは、標準的なANSI SQLまたはユーザーフレンドリーなUIを使用してきめ細かなデータ権限を提供することで、この課題に対処する。行、列、ビューの各レベルでアクセス許可を管理できるため、データへのアクセスを制御し、データガバナンスポリシーへのコンプライアンスを確保することができる。Unity Catalogは、テーブルの管理にとどまらず、MLモデルやファイルを含む他のタイプのデータ資産にまでガバナンスを拡張します。これにより、企業は一元化されたプラットフォームから、すべてのデータとAI資産をガバナンスすることができます。
Delta Live Tables (DLT) は、Databricks が提供する強力な ETL (Extract, Transform, Load) フレームワークです。データエンジニアやアナリストは、ストリーミングとバッチの両方のワークロードを処理するための効率的で信頼性の高いデータパイプラインを構築することができます。DLTは、SQLとPythonを使用してデータパイプラインを宣言的に表現できるようにすることで、ETL開発を簡素化します。この宣言的アプローチにより、手作業によるコードのつなぎ合わせが不要になり、データパイプラ インの開発、テスト、導入、運用が合理化されます。DLTはインフラ管理も自動化し、クラスタのサイジング、オーケストレーション、エラー処理、パフォーマンスの最適化を行う。これらの運用タスクを自動化することで、データエンジニアはデータ変換に集中し、データから価値ある洞察を引き出すことができる。
エンドツーエンドのデータガバナンスと合理化されたデータエンジニアリングプロセスの組み合わせ
Unity CatalogとDelta Live Tablesの強みを組み合わせることで、組織はエンドツーエンドのデータガバナンスを実現し、データエンジニアリングプロセスを合理化することができます。この統合により、データチームは、Unity Catalogで定義されたガバナンスポリシーを遵守しながら、Delta Live Tablesを使用してデータパイプラインを開発および実行することができます。このシームレスな相互運用性により、データエンジニア、アナリスト、およびガバナンスチーム間の効率的なコラボレーションが可能になり、データライフサイクル全体を通して、データ資産が適切にガバナンスされ、保護され、コンプライアンスに準拠していることが保証されます。Unity CatalogとDelta Live Tablesが連携することで、企業は最高水準のデータガバナンスとセキュリティを維持しながら、データレイクハウスアーキテクチャの可能性を最大限に引き出すことができます。
Block社(旧Square社)は、この統合の早期プレビュ ー顧客の一社です。ブロック社は、エンタープライズデータプラットフォームにDelta Live Tablesをいち早く採用した企業として、DLTパイプラインにUnity Catalogがもたらす大きな可能性に興奮しています:
「Delta Live TablesとUnity Catalogの統合に非常に興奮しています。この統合により、DLTパイプラインのデータガバナンスを合理化、自動化することができ、何百万ものイベントをリアルタイムでインジェストする際に、機密データとセキュリティの要件を満たすことができます。これにより、リスク・モデリングや不正検出に関連する当社のビジネス・ユースケースの可能性と強化の世界が広がります」- ブロック、スタッフ・ソフトウェア・エンジニア、ユエ・チャン氏
デルタ・ライブ・テーブルでUCはどのように有効になっていますか?
Delta Live Tableパイプラインを作成する際、UIでDestinationオプションから "Unity Catalog "を選択します。
ターゲット・カタログとスキーマを選択するプロンプトが表示されます。これは、すべてのライブ・テーブルが3レベルのネームスペース(catalog.schema.table)でパブリッシュされる場所です。
UCはDLTとどのように併用できるのか?
あらゆるソースからの読み取り: HiveメタストアおよびUnityカタログテーブル、ストリーミングソース
Unity Catalog + Delta Live Tables は、様々なソースからデータを読み込む DLT パイプラインの機能を拡張します。DLT + Unity Catalog パイプラインは、以下のソースからデータを読み込むことができます。
- Unityカタログの管理テーブルと外部テーブル
- Hiveメタストアのテーブルとビュー
- ストリーミングソース (Apache Kafka および Amazon Kinesis)
- Databricks Autoloaderまたはcloud_files()によるクラウドオブジェクトストレージ
例えば、ある組織が複数のチャネルにわたる顧客とのやり取りを分析したいとします。DLT を利用して、Hive Metastore テーブルに保存された顧客との対話ログ、Kafka からのリアルタイムストリーム、UC 管理テーブルからのデータなどのソースからデータを取り込み、処理することができます。このソースの組み合わせにより、顧客とのインタラクションの包括的なビューが提供され、価値ある洞察と分析が可能になります。
DLT公開テーブルのきめ細かなアクセス制御
Unity Catalog のきめ細かなアクセス制御により、パイプライン作成者はライブテーブルへのアクセスを簡単に管理できます。DLT パイプライン開発者は、カタログ内の特定のライブテーブルに誰がアクセスできるかを完全に制御できます。
メタストア内のグループに対するアクセス権の付与や取り消しは、単純なANSI SQLコマンドで実行できます。
例えば、機密性の高い顧客データを含むライブテーブルをUCに作成した場合、その特定のテーブルを扱う必要のあるデータアナリストやデータサイエンティストに選択的にアクセス権を付与することができます。GRANT SELECT ON TABLE "のようなSQLコマンドを使用することで、正確なアクセスレベルを指定し、データ探索と分析のための安全で制御された環境を提供することができます。
企業が必要とするデータの物理的な隔離を実施
データの分離は、コンプライアンスとセキュリティを確保するために、多くの組織にとって極めて重要です。Unity Catalog を使用した DLT では、データセットを適切なカタログレベルのストレージロケーションに書き込むことで、データの物理的分離を実施できます。
この機能により、組織の要件に基づき、各カタログに関連付けられた個別のストレージロケーションに異なるデータセットを保存し、管理することができます。この機能により、機密データが他のデータセットから分離・隔離され、データガバナンスとコンプライアンスの強固な基盤となります。
続報をお楽しみに!
Delta Live Tables (DLT)とUnity Catalog (UC)の機能強化に継続的に取り組み、より堅牢で安全かつシームレスなデータエンジニアリングエクスペリエンスを提供しています。今後もDLTとUCの統合を強化し、一流のガバナンスとセキュリティを維持しながら、データレイクハウス・アーキテクチャの可能性を最大限に引き出せるようにしていきます。
今すぐお試しください
Delta Live Tables (DLT)とUnity Catalog (UC)のパワーを直接体験するために、今すぐお試しください。
Try Delta Live Tables in Unity Catalog today, or read the documentation (AWS | Azure)