メインコンテンツへジャンプ

Delta Lake

データスワンプからの脱却とデータ加工の柔軟性をもたらす、次世代型データレイク/データウェアハウス

banner-hero
marketure

Delta Lake とは

Delta Lake(デルタレイク)は、AWS S3、Azure Data Lake Storage、HDFS などの既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーです。データレイクの信頼性、セキュリティ、性能を高め、ストリーミング/バッチ処理の両方に柔軟に対応します。 構造化、半構造化、非構造化データを単一システムに集約してデータサイロを解消し、コスト効率およびスケーラビリティの高いレイクハウスを実現します。

Delta-Lake-Image

データスワンプからの脱却

リアルタイム ストリームを含む、すべてのデータの信頼できる単一真実情報源を提供し、データチームが常に最新のデータで作業できるようにします。ACIDトランザクションとスキーマエンフォースメントのサポートにより、Delta Lakeは、従来のデータレイクに欠けていた信頼性を提供します。信頼性の高い、最新のデータを組織全体で活用し、分析をはじめとするデータプロジェクトをデータレイク上で直接実行できるようになります。結果として、データドリブンな意思決定が最大 50 倍高速化します

unity-catalog

オープンでセキュアなデータ共有

Delta Sharing は、セキュアなデータ共有のための新しいオープンプロトコルです。データの場所を問わず、組織内外でのデータ共有を容易にします。Unity Catalog とのネイティブな統合により、組織間の共有データを一元管理、監視できます。データアセットをベンダーやパートナーとセキュアに共有して連携を強化すると同時に、セキュリティおよびコンプライアンスの要件を満たします。また、主要なツールやプラットフォームとの統合により、任意のツールを使用した共有データの視覚化、クエリ、エンリッチメント、ガバナンスが可能です。

delta-lake-product

超高速性能

Apache Spark™ を基盤とする Delta Lake は、大規模なスケーリングと高速性を実現します。性能を左右するインデックス機能などの最適化により、ETL ワークロードが最大 48 倍高速化したことが実証されています。

delta-lak

オープン、アジャイル

Delta Lake のデータはオープンな Apache Parquet 形式で保存されるため、あらゆる互換リーダーで読み取ることができます。API はオープンで、Apache Spark と互換性があり、データパイプラインの変更は最小限ですみます。Databricks で Delta Lake を利用することで、オープンソースの広範なエコシステムへのアクセスが可能になり、独自形式によるデータのロックインを回避できます。

Pipeline-Graph

データエンジニアリングの自動化と高信頼性

Delta Live Tables が Delta Lake のデータを最新かつ高品質に保つデータパイプラインの構築・管理を容易にし、データエンジニアリングをシンプルにします。また、宣言型パイプラインの開発、高信頼性データ、クラウドスケールの本稼働環境がレイクハウス基盤の構築を可能にし、データエンジニアリングによる ETL の開発・管理をシンプルにします。

unity_catalog

大規模運用のためのセキュリティとガバナンス

Delta Lake は、詳細なアクセス制御によりデータガバナンスを確実にしてリスクを軽減します。これは通常のデータレイクでは不可能です。データレイクのデータを迅速かつ正確に更新し、GDPR をはじめとする規制へのコンプライアンス、監査ログによる高度なデータガバナンスの維持を可能にします。これらのケイパビリティは、レイクハウス初のマルチクラウドデータカタログである Unity Catalog の一部としてDatabricks にネイティブに統合され、拡張されています。

ユースケース

Delta Lake Use cases

リアルタイムデータによる BI

ビジネスインテリジェンス(BI)のワークロードをデータレイク上で直接実行することで、新鮮なリアルタイムデータの素早いクエリを可能にし、データドリブンな意思決定を加速させます。Delta Lake は、データウェアハウスの性能とデータレイクの経済性を同時に実現するマルチクラウドのレイクハウスアーキテクチャの運用を可能にします。SQL ワークロードの実行においては、従来のクラウド型データウェアハウスと比較して最大 6 倍の価格性能を発揮します。

詳しく見る
Delta Lake Use cases

バッチ/ストリーミングの両方に対応

バッチ/ストリーミング 両方の入力を単一のシンプルなアーキテクチャで処理し、冗長なシステムや運用上の課題を回避します。Delta Lake のテーブルは、バッチテーブルでもあり、ストリーミングソースとシンクでもあります。ストリーミングデータの取り込み、バッチ履歴バックフィル、対話型クエリは全てすぐに動作し、Spark の構造化ストリーミングと直接統合されます。

Delta Lake Use cases

規制への対応

Delta Lake は、不正なデータの取り込み、コンプライアンスのためのデータ削除、変更データキャプチャのためのデータの変更といった課題を解決します。データレイクでの ACID トランザクションがサポートされているため、全操作を成功させるか、または、再実行に備えて全操作を完全に中断させます。データパイプラインを新たに作成する必要はありません。さらに、Delta Lake によって、全トランザクションの履歴がデータレイクに記録されます。過去のバージョンのデータに容易にアクセス可能にすることで、GDPR/CCPA などのコンプライアンス要件を満たします。

データインジェストのネットワーク

ネイティブのコネクタが、あらゆるアプリケーション、データベース、ファイルストレージからのデータを迅速・容易に Delta Lake に取り込みます。

導入事例

healthdirect

「Databricks の導入によって市場投入までの時間を短縮できました。分析や運用管理が効率化し、医療部門の新たなニーズに対応できるようになっています。」
ヘルスダイレクト・オーストラリア社
チーフアーキテクト ピーター・ジェームズ氏

詳しく見る
Yipit Data

「Databricks と Delta Lake を活用することで、組織内での大規模なデータ共有が可能になっています。さらに、本運用ワークロードの実行に伴うコストが 60% 低減し、数百万ドルのコスト削減を達成しました。」
YipitData 社 CTO スティーブ・ピュレック氏

詳しく見る
Columbia

「Delta Lake は、データパイプラインの運用をシンプルにする ACID 特性によって、パイプラインの信頼性とデータの一貫性を向上させます。また、キャッシングやインデックス自動作成などの機能が、効率的なデータアクセスを可能にします。」
コロンビアスポーツウェア社 シニアエンタープライズデータマネージャー
ララ・マイナー氏

詳しく見る
Viacom 18

「Delta Lake でデータパイプラインの管理がシンプルになりました。運用コストも低減し、ダウンストリームの分析とデータサイエンスによる気づきの発見がスピードアップしています。」
Viacom18 社 デジタル変革・技術部門アシスタント VP
パリヤット・デイ氏

詳しく見る

無料お試し・その他ご相談を承ります