メインコンテンツへジャンプ

Delta Live TablesとUnity Catalogを使用したガバメント・パイプラインの構築

ゾーイ・デュラン
Mukul Murthy
Jon Mio
Yuhong Chen
Share this post

翻訳: Masahiko Kitamura 
オリジナル記事:Build governed pipelines with Delta Live Tables and Unity Catalog

Delta Live Tables(DLT)のUnity Catalogサポートのパブリックプレビューを発表できることを嬉しく思います。このプレビューにより、どのようなデータチームでも、Delta Live Tablesによって生成されたデータ資産に対して、きめ細かいデータガバナンスポリシーを定義し、実行することができます。私たちは、データエンジニアリングパイプラインにUnity Catalogのパワーをもたらします。パイプラインとDelta Live Tablesは、他のUnity Catalogアセットと一緒にガバナンスと管理ができるようになりました。

Unity CatalogとDelta Live Tablesでデータエンジニアリングに革新を

Unity Catalogは、レイクハウスアーキテクチャ( lakehouse architectures )向けに設計された包括的なデータガバナンスソリューションです。S3、ADLS、GCSなどのデータレイクは、そのスケーラビリティと費用対効果の高さから、膨大なデータの保存と処理に普及している。しかし、データレイクにおけるガバナンスの管理は課題となっている。Unity Catalogは、標準的なANSI SQLまたはユーザーフレンドリーなUIを使用してきめ細かなデータ権限を提供することで、この課題に対処する。行、列、ビューの各レベルでアクセス許可を管理できるため、データへのアクセスを制御し、データガバナンスポリシーへのコンプライアンスを確保することができる。Unity Catalogは、テーブルの管理にとどまらず、MLモデルやファイルを含む他のタイプのデータ資産にまでガバナンスを拡張します。これにより、企業は一元化されたプラットフォームから、すべてのデータとAI資産をガバナンスすることができます。

Delta Live Tables (DLT) は、Databricks が提供する強力な ETL (Extract, Transform, Load) フレームワークです。データエンジニアやアナリストは、ストリーミングとバッチの両方のワークロードを処理するための効率的で信頼性の高いデータパイプラインを構築することができます。DLTは、SQLとPythonを使用してデータパイプラインを宣言的に表現できるようにすることで、ETL開発を簡素化します。この宣言的アプローチにより、手作業によるコードのつなぎ合わせが不要になり、データパイプラインの開発、テスト、導入、運用が合理化されます。DLTはインフラ管理も自動化し、クラスタのサイジング、オーケストレーション、エラー処理、パフォーマンスの最適化を行う。これらの運用タスクを自動化することで、データエンジニアはデータ変換に集中し、データから価値ある洞察を引き出すことができる。

エンドツーエンドのデータガバナンスと合理化されたデータエンジニアリングプロセスの組み合わせ

Unity CatalogとDelta Live Tablesの強みを組み合わせることで、組織はエンドツーエンドのデータガバナンスを実現し、データエンジニアリングプロセスを合理化することができます。この統合により、データチームは、Unity Catalogで定義されたガバナンスポリシーを遵守しながら、Delta Live Tablesを使用してデータパイプラインを開発および実行することができます。このシームレスな相互運用性により、データエンジニア、アナリスト、およびガバナンスチーム間の効率的なコラボレーションが可能になり、データライフサイクル全体を通して、データ資産が適切にガバナンスされ、保護され、コンプライアンスに準拠していることが保証されます。Unity CatalogとDelta Live Tablesが連携することで、企業は最高水準のデータガバナンスとセキュリティを維持しながら、データレイクハウスアーキテクチャの可能性を最大限に引き出すことができます。

Block社(旧Square社)は、この統合の早期プレビュー顧客の一社です。ブロック社は、エンタープライズデータプラットフォームにDelta Live Tablesをいち早く採用した企業として、DLTパイプラインにUnity Catalogがもたらす大きな可能性に興奮しています:

「Delta Live TablesとUnity Catalogの統合に非常に興奮しています。この統合により、DLTパイプラインのデータガバナンスを合理化、自動化することができ、何百万ものイベントをリアルタイムでインジェストする際に、機密データとセキュリティの要件を満たすことができます。これにより、リスク・モデリングや不正検出に関連する当社のビジネス・ユースケースの可能性と強化の世界が広がります」- ブロック、スタッフ・ソフトウェア・エンジニア、ユエ・チャン氏

デルタ・ライブ・テーブルでUCはどのように有効になっていますか?

Delta Live Tableパイプラインを作成する際、UIでDestinationオプションから "Unity Catalog "を選択します。

ターゲット・カタログとスキーマを選択するプロンプトが表示されます。これは、すべてのライブ・テーブルが3レベルのネームスペース(catalog.schema.table)でパブリッシュされる場所です。

gif

UCはDLTとどのように併用できるのか?

あらゆるソースからの読み取り: HiveメタストアおよびUnityカタログテーブル、ストリーミングソース

Unity Catalog + Delta Live Tables は、様々なソースからデータを読み込む DLT パイプラインの機能を拡張します。DLT + Unity Catalog パイプラインは、以下のソースからデータを読み込むことができます。

  • Unityカタログの管理テーブルと外部テーブル
  • Hiveメタストアのテーブルとビュー
  • ストリーミングソース (Apache Kafka および Amazon Kinesis)
  • Databricks Autoloaderまたはcloud_files()によるクラウドオブジェクトストレージ

例えば、ある組織が複数のチャネルにわたる顧客とのやり取りを分析したいとします。DLT を利用して、Hive Metastore テーブルに保存された顧客との対話ログ、Kafka からのリアルタイムストリーム、UC 管理テーブルからのデータなどのソースからデータを取り込み、処理することができます。このソースの組み合わせにより、顧客とのインタラクションの包括的なビューが提供され、価値ある洞察と分析が可能になります。

DLT公開テーブルのきめ細かなアクセス制御

Unity Catalog のきめ細かなアクセス制御により、パイプライン作成者はライブテーブルへのアクセスを簡単に管理できます。DLT パイプライン開発者は、カタログ内の特定のライブテーブルに誰がアクセスできるかを完全に制御できます。

メタストア内のグループに対するアクセス権の付与や取り消しは、単純なANSI SQLコマンドで実行できます。

GRANT SELECT ON TABLE
  my_catalog.my_schema.live_table
TO
finance_users;

例えば、機密性の高い顧客データを含むライブテーブルをUCに作成した場合、その特定のテーブルを扱う必要のあるデータアナリストやデータサイエンティストに選択的にアクセス権を付与することができます。GRANT SELECT ON TABLE "のようなSQLコマンドを使用することで、正確なアクセスレベルを指定し、データ探索と分析のための安全で制御された環境を提供することができます。

企業が必要とするデータの物理的な隔離を実施

データの分離は、コンプライアンスとセキュリティを確保するために、多くの組織にとって極めて重要です。Unity Catalog を使用した DLT では、データセットを適切なカタログレベルのストレージロケーションに書き込むことで、データの物理的分離を実施できます。

この機能により、組織の要件に基づき、各カタログに関連付けられた個別のストレージロケーションに異なるデータセットを保存し、管理することができます。この機能により、機密データが他のデータセットから分離・隔離され、データガバナンスとコンプライアンスの強固な基盤となります。

続報をお楽しみに!

Delta Live Tables (DLT)とUnity Catalog (UC)の機能強化に継続的に取り組み、より堅牢で安全かつシームレスなデータエンジニアリングエクスペリエンスを提供しています。今後もDLTとUCの統合を強化し、一流のガバナンスとセキュリティを維持しながら、データレイクハウス・アーキテクチャの可能性を最大限に引き出せるようにしていきます。

今すぐお試しください

Delta Live Tables (DLT)とUnity Catalog (UC)のパワーを直接体験するために、今すぐお試しください。

Try Delta Live Tables in Unity Catalog today, or read the documentation (AWS | Azure)

Databricks 無料トライアル

関連記事

Unity Catalogを通じたデルタシェアリングで構造化ストリーミングを使う

Original : Using Structured Streaming with Delta Sharing in Unity Catalog 翻訳: junichi.maruyama この度、Azure、AWS、GCPにおいて、Structured StreamingをDelta Sharingで使用するためのサポートが一般提供(GA)されたことをお知らせします!この新機能により、Databricks Lakehouse Platform上のデータ受信者は、 Unity Catalog を通じて共有されたDelta Tableからの変更をストリーミングできるようになります。 データプロバイダーは、この機能を活用することで、Data-as-a-Service...

ソフトウェア開発およびDevOpsのベストプラクティスをDelta Live Tableパイプラインに適用

April 28, 2023 Alex Ott による投稿 in プラットフォームブログ
Original Blog : Applying software development & DevOps best practices to Delta Live Table pipelines 翻訳: junichi.maruyama Databricks Delta Live Tables(DLT)は、データエンジニアが記述・維持する必要のあるコード量を減らすことで、堅牢なデータ処理パイプラインの開発を根本的に簡素化します。また、環境間でコードとパイプラインの構成をシームレスに推進できるようにしながら、データのメンテナンスとインフラ運用の必要性を低減します。しかし、パイプラインに含まれるコードのテストを行う必要があり、それを効率的に行う方法についてよく質問を受けます。 このブログでは、複数のお客様との共同作業の経験に基づき、以下の項目を取り上げます: DevOpsのベストプラクティスをDelta...

Delta Live Tablesを使用して、複数のストリーミングプラットフォームから同時にデータを処理する

Original Blog : Processing data simultaneously from multiple streaming platforms using Delta Live Tables 翻訳: junichi.maruyama 今日の組織における大きな課題の1つは、ビジネスのスピードに合わせた意思決定を可能にすることです。ビジネスチームや自律的な意思決定システムは、意思決定や迅速な対応に必要なすべての情報を、ソースとなるイベントが発生すると同時に、リアルタイムまたはほぼリアルタイムで必要とすることが多い。このような情報は、ストリーム処理用語でイベントと呼ばれ、ソースからデスティネーションへ非同期でリレーされ、一般的にメッセージブローカーやメッセージバスを介して行われる。 組織が成長し、チームが他のチームに分岐するにつれ、メッセージブローカーの使用パターン、数、種類は増加します。合併や買収のシナリオでは、企業が新しいメッセージブローカーを継承することが多く、その場合、既存のデータエンジニアリ
プラットフォームブログ一覧へ