Delta Lake とは

Delta Lake(デルタレイク)は、AWS S3、Azure Data Lake Storage、HDFS などの既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーです。データレイクの信頼性、セキュリティ、性能を高め、ストリーミング/バッチ処理の両方に柔軟に対応します。構造化、半構造化、非構造化データを単一システムに集約してデータサイロを解消し、コスト効率およびスケーラビリティの高いレイクハウスを実現します。

データスワンプからの脱却

従来のデータレイクでは、取り込んだデータを制御できずに、データ品質の問題、いわゆる「データスワンプ」が発生することがありました。Delta Lake は、リアルタイムストリーミングを含むあらゆるデータに対して信頼性の高い単一のデータソースの提供を可能にすると同時に、ACID トランザクションとスキーマの適用もサポートします。信頼性の高い、最新のデータを組織全体で活用し、分析をはじめとするデータプロジェクトをデータレイク上で直接実行できるようになります。結果として、データドリブンな意思決定が最大 50 倍高速化します。

ACID トランザクション

number of partitions chart

超高速性能

Apache Spark™ を基盤とする Delta Lake は、大規模なスケーリングと高速性を実現します。性能が重要なインデックス機能などの最適化により、ETL ワークロードの実行が最大 48% 高速化したことが実証されています。

オープン、アジャイル

Delta Lake のデータはオープンな Apache Parquet 形式で保存されるため、あらゆる互換リーダーで読み取ることができます。API はオープンで、Apache Spark と互換性があり、データパイプラインの変更は最小限ですみます。Databricks で Delta Lake を利用することで、オープンソースの広範なエコシステムへのアクセスが可能になり、独自形式によるデータのロックインを回避できます。

Delta Lake and Linus Foundation logos

security and compliance settings

大規模運用のためのセキュリティとコンプライアンス

Delta Lake は、データガバナンスのための精緻なアクセス制御を可能にし、リスクを軽減します。これは、通常のデータレイクでは不可能な機能です。データレイク内のデータを迅速かつ正確に更新し、GDPR などの規制の遵守、監査ログによる高度なデータガバナンスの維持を可能にします。

ユースケース

ETL パイプラインの改善

Delta Lake は、データレイクで直接 ETL 処理を実行可能にすることで、データエンジニアリングを大幅に効率化します。Delta Lake は、シンプルなパイプライン、データの信頼性向上、シンプルなクラウド規模の運用を可能にし、さらに、高度に最適化された Spark クラスタを利用したスケーラブルなクラウドランタイムにより、コンピューティング時間とコストを削減します。

もっと読む

リアルタイムデータによる BI

ビジネスインテリジェンス(BI)のワークロードをデータレイク上で直接実行することで、新鮮なリアルタイムデータの素早いクエリを可能にし、データドリブンな意思決定を加速させます。Delta Lake は、データウェアハウスの性能とデータレイクの経済性を同時に実現するマルチクラウドのレイクハウスアーキテクチャの運用を可能にします。SQL ワークロードの実行においては、従来のクラウド型データウェアハウスと比較して最大 4 倍の価格性能を発揮します。

もっと読む

バッチ、ストリーミング処理の両方に対応

バッチ/ストリーミング両方の入力を単一のシンプルなアーキテクチャで処理し、冗長なシステムや運用上の課題を回避します。Delta Lake のテーブルは、バッチテーブルでもあり、ストリーミングソースとシンクでもあります。ストリーミングデータの取り込み、バッチ履歴バックフィル、対話型クエリは全てすぐに動作し、Spark の構造化ストリーミングと直接統合されます。

規制への対応

Delta Lake は、不正なデータの取り込み、コンプライアンスのためのデータ削除、変更データキャプチャのためのデータの変更といった課題を解決します。データレイクでの ACID トランザクションがサポートされているため、全操作を成功させるか、または、再実行に備えて全操作を完全に中断させます。データパイプラインを新たに作成する必要はありません。さらに、Delta Lake によって、全トランザクションの履歴がデータレイクに記録されます。過去のバージョンのデータに容易にアクセス可能にすることで、GDPR/CCPA などのコンプライアンス要件を満たします。

データインジェストのネットワーク

ネイティブのコネクタが、あらゆるアプリケーション、データベース、ファイルストレージからの
データを迅速・容易に Delta Lake に取り込みます。

customers logos

お客様の声・事例

Healthdirect logo

「Databricks の導入によって市場投入までの時間を短縮できました。分析や運用管理が効率化し、医療部門の新たなニーズに対応できるようになっています。」
ヘルスダイレクト・オーストラリア社
チーフアーキテクト ピーター・ジェームズ氏

さらに詳しく

YipitData logo

「Databricks と Delta Lake を活用することで、組織内での大規模なデータ共有が可能になっています。さらに、本運用ワークロードの実行に伴うコストが 60% 低減し、数百万ドルのコスト削減を達成しました。」
YipitData 社 CTO スティーブ・ピュレック氏

さらに詳しく

Columbia logo

「Delta Lake は、データパイプラインの運用をシンプルにする ACID 特性によって、パイプラインの信頼性とデータの一貫性を向上させます。また、キャッシングやインデックス自動作成などの機能が、効率的なデータアクセスを可能にします。」
コロンビアスポーツウェア社 シニアエンタープライズデータマネージャー
ララ・マイナー氏

さらに詳しく

Viacom18 logo

「Delta Lake でデータパイプラインの管理がシンプルになりました。運用コストも低減し、ダウンストリームの分析とデータサイエンスによる気づきの発見がスピードアップしています。」
Viacom18 社 デジタル変革・技術部門アシスタント VP
パリヤット・デイ氏

さらに詳しく

関連リソース

eBook シリーズ

技術トーク

Web セミナー

無料お試し・その他のご相談を承っております

Databricks の無料トライアル

Delta Lake 関連のドキュメント