Delta Lake とは
Delta Lake(デルタレイク)は、AWS S3、Azure Data Lake Storage、HDFS などの既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーです。データレイクの信頼性、セキュリティ、性能を高め、ストリーミング/バッチ処理の両方に柔軟に対応します。構造化、半構造化、非構造化データを単一システムに集約してデータサイロを解消し、コスト効率およびスケーラビリティの高いレイクハウスを実現します。
データスワンプからの脱却
従来のデータレイクでは、取り込んだデータを制御できずに、データ品質の問題、いわゆる「データスワンプ」が発生することがありました。Delta Lake は、リアルタイムストリーミングを含むあらゆるデータに対して信頼性の高い単一のデータソースの提供を可能にすると同時に、ACID トランザクションとスキーマの適用もサポートします。信頼性の高い、最新のデータを組織全体で活用し、分析をはじめとするデータプロジェクトをデータレイク上で直接実行できるようになります。結果として、データドリブンな意思決定が最大 50 倍高速化します。
超高速性能
Apache Spark™ を基盤とする Delta Lake は、大規模なスケーリングと高速性を実現します。性能が重要なインデックス機能などの最適化により、ETL ワークロードの実行が最大 48% 高速化したことが実証されています。
オープン、アジャイル
Delta Lake のデータはオープンな Apache Parquet 形式で保存されるため、あらゆる互換リーダーで読み取ることができます。API はオープンで、Apache Spark と互換性があり、データパイプラインの変更は最小限ですみます。Databricks で Delta Lake を利用することで、オープンソースの広範なエコシステムへのアクセスが可能になり、独自形式によるデータのロックインを回避できます。
大規模運用のためのセキュリティとコンプライアンス
Delta Lake は、データガバナンスのための精緻なアクセス制御を可能にし、リスクを軽減します。これは、通常のデータレイクでは不可能な機能です。データレイク内のデータを迅速かつ正確に更新し、GDPR などの規制の遵守、監査ログによる高度なデータガバナンスの維持を可能にします。
ユースケース
ETL パイプラインの改善
Delta Lake は、データレイクで直接 ETL 処理を実行可能にすることで、データエンジニアリングを大幅に効率化します。Delta Lake は、シンプルなパイプライン、データの信頼性向上、シンプルなクラウド規模の運用を可能にし、さらに、高度に最適化された Spark クラスタを利用したスケーラブルなクラウドランタイムにより、コンピューティング時間とコストを削減します。
リアルタイムデータによる BI
ビジネスインテリジェンス(BI)のワークロードをデータレイク上で直接実行することで、新鮮なリアルタイムデータの素早いクエリを可能にし、データドリブンな意思決定を加速させます。Delta Lake は、データウェアハウスの性能とデータレイクの経済性を同時に実現するマルチクラウドのレイクハウスアーキテクチャの運用を可能にします。SQL ワークロードの実行においては、従来のクラウド型データウェアハウスと比較して最大 4 倍の価格性能を発揮します。
バッチ、ストリーミング処理の両方に対応
バッチ/ストリーミング両方の入力を単一のシンプルなアーキテクチャで処理し、冗長なシステムや運用上の課題を回避します。Delta Lake のテーブルは、バッチテーブルでもあり、ストリーミングソースとシンクでもあります。ストリーミングデータの取り込み、バッチ履歴バックフィル、対話型クエリは全てすぐに動作し、Spark の構造化ストリーミングと直接統合されます。
規制への対応
Delta Lake は、不正なデータの取り込み、コンプライアンスのためのデータ削除、変更データキャプチャのためのデータの変更といった課題を解決します。データレイクでの ACID トランザクションがサポートされているため、全操作を成功させるか、または、再実行に備えて全操作を完全に中断させます。データパイプラインを新たに作成する必要はありません。さらに、Delta Lake によって、全トランザクションの履歴がデータレイクに記録されます。過去のバージョンのデータに容易にアクセス可能にすることで、GDPR/CCPA などのコンプライアンス要件を満たします。
「Delta Lake は、データパイプラインの運用をシンプルにする ACID 特性によって、パイプラインの信頼性とデータの一貫性を向上させます。また、キャッシングやインデックス自動作成などの機能が、効率的なデータアクセスを可能にします。」
コロンビアスポーツウェア社 シニアエンタープライズデータマネージャー
ララ・マイナー氏
「Delta Lake でデータパイプラインの管理がシンプルになりました。運用コストも低減し、ダウンストリームの分析とデータサイエンスによる気づきの発見がスピードアップしています。」
Viacom18 社 デジタル変革・技術部門アシスタント VP
パリヤット・デイ氏