Delta Live Tables:信頼性のあるデータライフサイクル管理で SSOT(Single Source of Truth)を容易に実現

パブリックプレビューを見る

企業におけるデータ、データソースの増加、データタイプの多様化に伴い、信頼性のあるデータパイプラインの構築と維持は、データ分析、データサイエンス、機械学習における重要なイネーブラとなってきています。データパイプラインに対する戦略的な取り組みを行う前においては、整理されていない生のデータ(ローデータ:Raw Data)を、整理された、鮮度のある、信頼性のあるデータに変換するステップは非常に重要なステップとなり、このような取り組みの優先度を高めることは、データエンジニアチームに対するプレッシャーを増加させることになります。

Data + AI サミット において、私たちは ETL の開発、管理をシンプルなものするファーストクラスのエクスペリエンスを Databricks のお客様に提供する Delta Lake の新たな機能である Delta Live Tables(DLT)を発表しました。DLT は、宣言型パイプライン開発、改善されたデータの信頼性、クラウド規模でのプロダクションオペレーションによって、データライフサイクル管理を革新し、データエンジニアの作業をシンプルなものにします。

私たちは、信頼性のあるデータパイプラインの構築、運用の際にお客様が直面する課題を解決するためにこの製品を開発しました。それでは、ETL とデータパイプラインの構築がどれだけ大変なものであるかを見ていきましょう。

データチームは、日常的にデータ分析のための重要なデータの提供が求められます。このためには、整理されていない生の入力ファイル(ローデータ)を、最新かつ正確な探索的データ分析ダッシュボードに変換することがデータチームには期待されます。データをロードし、変換するために SQL クエリを記述する最初のステップは比較的わかりやすいものです。しかし、分析プロジェクトが一貫性のある最新のデータを必要としたときには、最初の SQL をプロダクションレベルの ETL パイプラインへと変換する必要が出てきます。この最新データは、さまざまなデータソース、ならびに、データソースを更新するジョブなど数多くの依存関係を持っています。これを解決するために、多くのデータエンジニアリングチームはテーブルをパーティションに分割し、依存関係を理解して正確な順序でそれぞれのパーティションを更新するエンジンを構築します。

Delta Lakeの新たな機能であるDelta Live Tablesは、SSOT(Single Source of Truth)をコアアイデアとして誕生しました。ETL の開発、データライフサイクル管理(情報ライフサイクル管理)をシンプルなものするファーストクラスのエクスペリエンスをお客様に提供します。ローデータ(Raw Data: 生データ)の変換もサポートしています。

構築が終わった後も、不可避なデータ処理エラーからすぐにリカバリできるように、チェックポイントとリトライが必要となります。さらに、システムの中をデータがどのように移動しているのかを追跡するためのデータガバナンス機能、エラーをアラートするモニタリング機能、データ品質を保証するための品質チェック機能を構築することが求められます。これら全てが完了したとしても、新たな要求がやってきます。データチームには、新たな要求に対応するために、いくつかの機能変更、機能追加後に、これら全てのプロセスを再実行することが求められます。

データチームはデータ変換のためではなくデータライフサイクル管理のためのツール開発に時間を費やすことになり、運用の複雑性は増加していきます。そして、データエンジニアはデータから価値を導出する時間をますます取れないことになります。

Delta Live Tables

DLTによって、データエンジニアは SQL クエリを記述するだけでプロダクションの ETL パイプラインを構築でき、データチームは自身のデータパイプラインを構築、活用して ETL のライフサイクルをシンプルなものにすることで ETL を簡素化、民主化します。SQL クエリに “LIVE” を追加するだけで、自動的に DLT は運用、ガバナンス、品質に関する課題の面倒を見ます。Python と SQL を組み合わせることで、高度な変換やパイプラインへの AI モデルの埋め込みを実現できる強力な SQL 拡張を利用できます。

DLT は ETL のライフサイクルをを簡素化し、データチームが SQL クエリを記述するだけでプロダクションの ETL パイプラインを構築、活用できるようにします。

データ依存性に対する理解

DLT は、複数のデータ変換クエリを受け取り、それをデータベースに対してクエリを実行する代わりに、それらクエリを注意深く解析し、依存関係を理解します。データフローを理解した後で、系統(リネージュ)情報が抽出され、その情報はデータを最新の状態にし、円滑にパイプラインを運用するために活用されます。

これはすなわち、DLT はデータフローとリネージュを理解しており、このリネージュは環境に依存しない形で表現されるため、異なるデータコピー(開発、プロダクション、ステージングなど)は分離され、それらは単一のコードベースで更新できるということを意味します。同一のクエリ定義セットは、これら異なるデータセットに適用することが可能です。

データリネージュの追跡機能は、変更管理の改善、開発時のエラーの削減に大きく貢献しますが、それ以上に、ユーザーに対して分析に使用されているデータソースの可視性を提供できるというメリットがあります。これによって、データから洞察を得る際に高い信頼性、自信を持つことが可能になります。

DLT は、データのユーザーに分析に使用されるソースの可視性を提供し、データから得られる気づきの信頼性を高め確信できるものにします。

パイプラインに対する可視性の獲得

DLT は、詳細なロギング、品質メトリクスと稼働統計情報を追跡するツールによって、パイプラインオペレーションに対する深い可視性を提供します。この機能によって、データチームはパイプライン内のそれぞれのテーブルのステータス、パフォーマンスを理解できます。データエンジニアはどのパイプラインの実行が成功して、失敗したのかを確認でき、自動エラーハンドリングと簡単なリフレッシュによってダウンタイムを削減できます。

DLT は、詳細なロギング、品質メトリクスと稼働統計情報を追跡するツールによって、パイプラインオペレーションに対する深い可視性を提供します。

データをコードとして取り扱う

この新しい機能を開発する際のコアアイデアの 1つが、現在の多くのデータエンジニアリングプロジェクトでは人気のあるものとなっている、データをコードとして取り扱うというアイデアです。取り扱うデータは、ビジネスで何が起きているのかを表現する唯一の真実(SSOT: single source of truth)であるべきです。データを定義するコードには変換処理だけではなく、他のいくつかのことが含まれるべきです。

  1. 品質期待:宣言的品質期待(expectation)によって、DLT はどのようなデータが悪いものなのか、どのように悪いデータを取り扱うべきかを調整可能な深刻度と共に指定できます。
  2. 変換処理のドキュメンテーション:DLT では、データがどこから来るのか、どのような目的で使用されるのか、どのように変換されているのかのドキュメントを記述することが可能です。このドキュメントは変換処理とともに格納され、この情報が常に最新であることが保証されます。
  3. テーブル属性: テーブルの属性(例:個人情報を含む)は、テーブル実行に関わるオペレーション情報、品質情報とともに自動的にイベントログに記録されます。この情報は、データが組織の中をどのように流れて、どのように規制要件に対応するのかを理解するために使用されます。

宣言型パイプライン開発によって、データの信頼性、クラウド規模でのプロダクションのオペレーションが改善され、Delta Live Tables は ETL のライフサイクルを簡単なものにし、データチームが迅速に洞察を得るために自身のデータパイプラインを構築、活用できるようにします。そして、最終的にはデータエンジニアの負荷を軽減します。

「シェル社では、統合されたデータストアに全センサーデータを集積しており、処理対象のレコード数は数兆の規模になります。Delta Live Tables は、このように大規模なデータ管理の負荷を低減してくれます。私たちは AI エンジニアリング能力の向上を目指しており、ETL をサポートする GUI を備えた統合開発環境(IDE)も利用しています。Databricks は、既存のレイクハウスアーキテクチャを補強するケイパビリティによって、ETL およびデータウェアハウス市場に破壊的イノベーションをもたらしています。このことは、私たちのような企業にとって大きな意味があります。今後もイノベーションパートナーとして Databricks との連携を継続したいと考えています。」
シェル社 データサイエンス部門ゼネラルマネージャー
ダン・ジーボンズ氏

まずはここから

Delta Live Tablesは、現在ゲーテッドパブリックプレビューであり、リクエストのあるお客様が利用可能です。既に Databricks をお使いのお客様は、DLT パイプラインを使用開始するためにこちらから DLT へのアクセスをリクエストできます。DLT の Hub からデモや DLT のドキュメントが利用可能です。

ゲーテッドプレビューであるため、プレビュープロセスを円滑に進めるために、場合によってはオンボーディングのサポートを行います。プレビューの枠を限定していますが、多くのお客様にご参加いただければと考えております。ゲーテッドプレビュー中にオンボーディングできない場合には、プレビュー期間が終了した際にお知らせします。

無料の「Data + AI」サミットで、製品・エンジニアリングチームが Delta Live Tables の詳細をご紹介しています。
Databricks 無料トライアル 使ってみる

ご登録

無料の「Data + AI」サミットで、製品・エンジニアリングチームが Delta Live Tables の詳細をご紹介しています。