Delta Live Tables(DLT) は Databricks データ・インテリジェンス・プラットフォーム向けの宣言型 ETL フレームワークです。ストリーミングおよびバッチ ETL をシンプルにし、コスト効率を高めます。データに対して実行する変換を定義するだけで、DLT パイプラインがタスクのオーケストレーション、クラスタ管理、モニタリング、データ品質、エラー処理を自動的に管理します。
効率的なデータ取り込み
レイクハウスでの本番環境対応の ETL パイプラインの構築は、インジェストから始まります。DLT は、データエンジニア、Python 開発者、データサイエンティスト、SQL アナリストなど、チーム全体にとって簡単で効率的な取り込みを可能にします。DLT を使用すると、Apache Spark™ がサポートするあらゆるデータソースから Databricks にデータをロードできます。
- オートローダーとストリーミングテーブルを使用し て、DLT パイプラインやDatabricks SQL クエリのためにデータを Bronze レイヤーにインクリメンタルに配置。
- クラウドストレージ、メッセージバス、外部システムからの取り込み
- DLT の変更データキャプチャ(CDC)を使用して、ソースデータの変更に基づいてテーブルを更新。
「Delta Live Tables は、Auto Loader の機能を超えて、ファイルの読み込みをさらに簡単にしてくれるので、とても気に入っています。45 分でストリーミングパイプラインをセットアップできた時には、とても驚きました。」
Labelbox 社シニアデータエンジニア Kahveh Saramout 氏
インテリジェント、コスト効率の高いデータ変換
DLT は、わずか数行のコードから、ストリーミングまたはバッチデータパイプラインの構築と実行の最も効率的な方法を決定し、複雑さを最小限に抑え、価格性能(Databricks の基準値の約 4 倍)を最適化します。
- 効率的なメダリオンアーキテクチャをストリーミングテーブルとマテリアライズドビューを使用して即座に実装
- 期待どおりの機能でデータ品質を最適化し、ビジネス価値を最大化
- データ鮮度のニーズに合わせて、パイプラインを継続的またはトリガーモードでリフレッシュする
「Delta Live Tables によって大規模なデータ管理の負荷が低減し、AI エンジニアリングの生産性が高まっています。Databricks は、ETL とデータウェアハウス市場を変革しています。」
シェル社 データサイエンス部門ゼネラルマネージャー ダン・ジーボンズ氏
パイプラインの容易な設定と維持
DLT パイプラインは、ETL 開発に内在する運用の複雑さをほぼすべて自動 化することで、ETL 開発を簡素化します。DLT パイプラインにより、エンジニアはパイプラインの運用や保守よりも、高品質なデータの提供に集中することができます。DLT は次のことを自動的に処理します。
- タスクオーケストレーション
- CI/CDとバージョン管理
- コンピュートインフラのオートスケールによるコスト削減
- イベントログのメトリクスによる監視
- エラー処理と障害回復
「動的スキーマ管理やステートフル/ステートレス変換などの複雑なアーキテクチャは、従来のマルチクラウドのデータウェアハウスアーキテクチャでは実装が困難でした。データサイエンティス トもデータエンジニアも、スケーラブルな Delta Live Tables を使用することで、参入障壁なくそのような変更を実行できるようになりました。」
ジェットブルー社データサイエンス・アナリティクス部門シニアマネージャー Sai Ravuru 氏
次世代ストリーム処理エンジン
Spark 構造化ストリーミング は、ストリーミング DLT パイプラインを解放し、バッチ処理とストリーム処理のための統合 API を提供するコアテクノロジーです。DLT パイプラインは、Spark 構造化ストリーミング固有の 1 秒未満ののレイテンシと、記録的な価格性能を活用します。Spark 構造化ストリーミングを使用して、独自の高性能ストリーミングパイプラインを手作業で構築することもできますが、DLT パイプラインでは、運用上のオーバーヘッドを自動的に管理するため、価値創出までの時間の短縮、継続的な開発速度の向上、TCO の削減を実現します。
「DLT をスケールさせるために何もする必要はありませんでした。システムに多くのデータを与えると、それに対応します。使い始めてすぐに、私たちからのあらゆる要求に対応できるという確信が得られました。」
Honeywell グローバルソリューションアーキテクト Chris Inkpen 博士
Delta Live Tables パイプラインと Spark 構造化ストリーミングをパイプラインの比較
Spark Structured Streaming pipelines | DLT pipelines | ||
---|---|---|---|
Databricksデータインテリジェンスプラットフォームでの実行 | |||
Spark 構造化ストリーミングを搭載 | |||
Unity Catalog による統合 | |||
Databricks ワークフローによるオーケストレーション | |||
クラウドストレージからメッセージバスまで、数十のソースから取り込む | |||
データフローのオーケストレーション | 手動 | 自動化 | |
データの品質のチェックと保証 | 手動 | 自動化 | |
エラー処理と障害回復 | 手動 | 自動化 | |
CI/CDとバージョン管理 | 手動 | 自動化 | |
コンピューティングの自動スケーリング | ベーシック |
統合データガバナンスとストレージ
Databricks で DLT パイプラインを実行することで、レイクハウスアーキテクチャを基盤にしたデータ・インテリジェンス・プラットフォームの基本コンポーネントである Unity Catalog と Delta Lake のメリットを享受できます。 Delta Lake は、ストリーミングデータとバッチデータの両方に対応するようゼロから設計された唯一のオープンソースストレージフレームワークで、未加工データを最適化できます。Unity Catalog は、あらゆるデータと AI 資産に対して、きめ細かく統合されたガバナンスを提供し、クラウド間でデータを発見、アクセス、共有するための一貫したモデルを提供します。また、Unity Catalog は、他の組織と容易かつセキュアにデータを共有するための業界初のオープンプロトコルである Delta Sharing をネイティブにサポートしています。
「Delta Live Tables と Unity Catalog の統合には、非常に興奮しています。この統合により、DLT パイプラインのデータガバナンスを効率化、自動化することができます。何百万ものイベントをリアルタイムでインジェストする際に、機密データとセキュリティの要件を満たすため、リスクモデリングと不正検出に関連する私たちのビジネスユースケースの可能性と強化の世界が広がっています。」
ブロック社ソフトエンジニアスタッフ Yue Zhang 氏
FAQ
リソース
eBook・ホワイトペーパー
導入事例・ブログ・Webセミナー
デモ・ドキュメント・トレーニング
Ready to get started?