Delta Lake とは

Delta Lake(デルタレイク)は、AWS S3、Azure Data Lake Storage、HDFS などの既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーです。データレイクの信頼性、セキュリティ、性能を高め、ストリーミング/バッチ処理の両方に柔軟に対応します。構造化、半構造化、非構造化データを単一システムに集約してデータサイロを解消し、コスト効率およびスケーラビリティの高いレイクハウスを実現します。

Databricks Marketure

データスワンプからの脱却

従来のデータレイクでは、取り込んだデータを制御できずに、データ品質の問題、いわゆる「データスワンプ」が発生することがありました。Delta Lake は、リアルタイムストリーミングを含むあらゆるデータに対して信頼性の高い単一のデータソースの提供を可能にすると同時に、ACID トランザクションとスキーマの適用もサポートします。信頼性の高い、最新のデータを組織全体で活用し、分析をはじめとするデータプロジェクトをデータレイク上で直接実行できるようになります。結果として、データドリブンな意思決定が最大 50 倍高速化します。

ACID トランザクション

number of partitions chart

Open and secure data sharing

Delta Sharing is the industry’s first open protocol for secure data sharing, making it simple to share data with other organizations regardless of where the data lives. Native integration with the Unity Catalog allows you to centrally manage and audit shared data across organizations. This allows you to confidently share data assets with suppliers and partners for better coordination of your business while meeting security and compliance needs. Integrations with leading tools and platforms allow you to visualize, query, enrich, and govern shared data from your tools of choice.

超高速性能

Apache Spark™ を基盤とする Delta Lake は、大規模なスケーリングと高速性を実現します。性能が重要なインデックス機能などの最適化により、ETL ワークロードの実行が最大 48% 高速化したことが実証されています。

number of partitions chart

Delta Lake and Linus Foundation logos

オープン、アジャイル

Delta Lake のデータはオープンな Apache Parquet 形式で保存されるため、あらゆる互換リーダーで読み取ることができます。API はオープンで、Apache Spark と互換性があり、データパイプラインの変更は最小限ですみます。Databricks で Delta Lake を利用することで、オープンソースの広範なエコシステムへのアクセスが可能になり、独自形式によるデータのロックインを回避できます。

Automated and trusted data engineering

Simplify data engineering with Delta Live Tables – an easy way to build and manage data pipelines for fresh, high-quality data on Delta Lake. It helps data engineering teams by simplifying ETL development and management with declarative pipeline development, improved data reliability and cloud-scale production operations to help build the lakehouse foundation.

Delta Live tables

security and compliance settings

Security and governance at scale

Delta Lake reduces risk by enabling fine-grained access controls for data governance, functionality typically not possible with data lakes. You can quickly and accurately update data in your data lake to comply with regulations like GDPR and maintain better data governance through audit logging. These capabilities are natively integrated and enhanced on Databricks as part of the Unity Catalog, the first multi-cloud data catalog for the Lakehouse.

ユースケース

リアルタイムデータによる BI

ビジネスインテリジェンス(BI)のワークロードをデータレイク上で直接実行することで、新鮮なリアルタイムデータの素早いクエリを可能にし、データドリブンな意思決定を加速させます。Delta Lake は、データウェアハウスの性能とデータレイクの経済性を同時に実現するマルチクラウドのレイクハウスアーキテクチャの運用を可能にします。SQL ワークロードの実行においては、従来のクラウド型データウェアハウスと比較して最大 4 倍の価格性能を発揮します。 さらに詳しく

バッチ、ストリーミング処理の両方に対応

バッチ/ストリーミング両方の入力を単一のシンプルなアーキテクチャで処理し、冗長なシステムや運用上の課題を回避します。Delta Lake のテーブルは、バッチテーブルでもあり、ストリーミングソースとシンクでもあります。ストリーミングデータの取り込み、バッチ履歴バックフィル、対話型クエリは全てすぐに動作し、Spark の構造化ストリーミングと直接統合されます。

規制への対応

Delta Lake は、不正なデータの取り込み、コンプライアンスのためのデータ削除、変更データキャプチャのためのデータの変更といった課題を解決します。データレイクでの ACID トランザクションがサポートされているため、全操作を成功させるか、または、再実行に備えて全操作を完全に中断させます。データパイプラインを新たに作成する必要はありません。さらに、Delta Lake によって、全トランザクションの履歴がデータレイクに記録されます。過去のバージョンのデータに容易にアクセス可能にすることで、GDPR/CCPA などのコンプライアンス要件を満たします。

データインジェストのネットワーク

ネイティブのコネクタが、あらゆるアプリケーション、データベース、ファイルストレージからの
データを迅速・容易に Delta Lake に取り込みます。

customers logos

お客様の声・事例

Healthdirect logo

「Databricks の導入によって市場投入までの時間を短縮できました。分析や運用管理が効率化し、医療部門の新たなニーズに対応できるようになっています。」
ヘルスダイレクト・オーストラリア社
チーフアーキテクト ピーター・ジェームズ氏

さらに詳しく

YipitData logo

「Databricks と Delta Lake を活用することで、組織内での大規模なデータ共有が可能になっています。さらに、本運用ワークロードの実行に伴うコストが 60% 低減し、数百万ドルのコスト削減を達成しました。」
YipitData 社 CTO スティーブ・ピュレック氏

さらに詳しく

Columbia logo

「Delta Lake は、データパイプラインの運用をシンプルにする ACID 特性によって、パイプラインの信頼性とデータの一貫性を向上させます。また、キャッシングやインデックス自動作成などの機能が、効率的なデータアクセスを可能にします。」
コロンビアスポーツウェア社 シニアエンタープライズデータマネージャー
ララ・マイナー氏

さらに詳しく

Viacom18 logo

「Delta Lake でデータパイプラインの管理がシンプルになりました。運用コストも低減し、ダウンストリームの分析とデータサイエンスによる気づきの発見がスピードアップしています。」
Viacom18 社 デジタル変革・技術部門アシスタント VP
パリヤット・デイ氏

さらに詳しく

関連リソース

無料お試し・その他のご相談を承っております

Databricks の無料トライアル

Delta Lake 関連のドキュメント