Databricks で Delta Lake を展開

Delta Sharing | Unity Catalog | Delta Live Tables | Data Ingestion

Delta Lake とは

Delta Lake(デルタレイク)は、AWS S3、Azure Data Lake Storage、HDFS などの既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーです。データレイクの信頼性、セキュリティ、性能を高め、ストリーミング/バッチ処理の両方に柔軟に対応します。構造化、半構造化、非構造化データを単一システムに集約してデータサイロを解消し、コスト効率およびスケーラビリティの高いレイクハウスを実現します。

Databricks マーキテクチャ

データスワンプからの脱却

従来のデータレイクでは、取り込んだデータを制御できずに、データ品質の問題、いわゆる「データスワンプ」が発生することがありました。Delta Lake は、リアルタイムストリーミングを含むあらゆるデータに対して信頼性の高い単一のデータソースの提供を可能にすると同時に、ACID トランザクションとスキーマの適用もサポートします。信頼性の高い、最新のデータを組織全体で活用し、分析をはじめとするデータプロジェクトをデータレイク上で直接実行できるようになります。結果として、データドリブンな意思決定が最大 50 倍高速化します。

ACID トランザクション

データ共有を示した画像

オープンでセキュアなデータ共有

Delta Sharing は、セキュアなデータ共有のための新しいオープンプロトコルです。データの場所を問わず、組織内外でのデータ共有を容易にします。Unity Catalog とのネイティブな統合により、組織間の共有データを一元的に管理、監視します。データアセットをベンダーやパートナーとセキュアに共有して連携を強化すると同時に、セキュリティおよびコンプライアンスの要件を満たします。また、主要なツールやプラットフォームとの統合により、任意のツールを使用した共有データの視覚化、クエリ、エンリッチメント、ガバナンスが可能です。

超高速性能

Apache Spark™ を基盤とする Delta Lake は、大規模なスケーリングと高速性を実現します。性能が重要なインデックス機能などの最適化により、ETL ワークロードの実行が最大 48% 高速化したことが実証されています。

データ共有を示した画像

Delta Lake and Linus Foundation logos

オープン、アジャイル

Delta Lake のデータはオープンな Apache Parquet 形式で保存されるため、あらゆる互換リーダーで読み取ることができます。API はオープンで、Apache Spark と互換性があり、データパイプラインの変更は最小限ですみます。Databricks で Delta Lake を利用することで、オープンソースの広範なエコシステムへのアクセスが可能になり、独自形式によるデータのロックインを回避できます。

データエンジニアリングの自動化と高信頼性

Delta Live Tables が Delta Lake のデータを最新かつ高品質に保つデータパイプラインの構築・管理を容易にし、データエンジニアリングをシンプルにします。また、宣言型パイプラインの開発、高信頼性データ、クラウドスケールの本稼働環境がレイクハウス基盤の構築を可能にし、データエンジニアリングによる ETL の開発・管理をシンプルにします。

Delta Live tables

セキュリティとコンプライアンスの設定

大規模運用のためのセキュリティとガバナンス

Delta Lake は、詳細なアクセス制御によりデータガバナンスを確実にしてリスクを軽減します。これは通常のデータレイクでは不可能です。データレイクのデータを迅速かつ正確に更新し、GDPR をはじめとする規制へのコンプライアンス、監査ログによる高度なデータガバナンスの維持を可能にします。これらのケイパビリティは、レイクハウス初のマルチクラウドデータカタログである Unity Catalog の一部としてDatabricks にネイティブに統合され、拡張されています。

ユースケース

リアルタイムデータによる BI

ビジネスインテリジェンス(BI)のワークロードをデータレイク上で直接実行することで、新鮮なリアルタイムデータの素早いクエリを可能にし、データドリブンな意思決定を加速させます。Delta Lake は、データウェアハウスの性能とデータレイクの経済性を同時に実現するマルチクラウドのレイクハウスアーキテクチャの運用を可能にします。SQL ワークロードの実行においては、従来のクラウド型データウェアハウスと比較して最大 4 倍の価格性能を発揮します。 さらに詳しく

バッチ、ストリーミング処理の両方に対応

バッチ/ストリーミング両方の入力を単一のシンプルなアーキテクチャで処理し、冗長なシステムや運用上の課題を回避します。Delta Lake のテーブルは、バッチテーブルでもあり、ストリーミングソースとシンクでもあります。ストリーミングデータの取り込み、バッチ履歴バックフィル、対話型クエリは全てすぐに動作し、Spark の構造化ストリーミングと直接統合されます。

規制への対応

Delta Lake は、不正なデータの取り込み、コンプライアンスのためのデータ削除、変更データキャプチャのためのデータの変更といった課題を解決します。データレイクでの ACID トランザクションがサポートされているため、全操作を成功させるか、または、再実行に備えて全操作を完全に中断させます。データパイプラインを新たに作成する必要はありません。さらに、Delta Lake によって、全トランザクションの履歴がデータレイクに記録されます。過去のバージョンのデータに容易にアクセス可能にすることで、GDPR/CCPA などのコンプライアンス要件を満たします。

データインジェストのネットワーク

ネイティブのコネクタが、あらゆるアプリケーション、データベース、ファイルストレージからの
データを迅速・容易に Delta Lake に取り込みます。

お客様のロゴ

さらに詳しく

お客様の声・事例

Healthdirect のロゴ

「Databricks の導入によって市場投入までの時間を短縮できました。分析や運用管理が効率化し、医療部門の新たなニーズに対応できるようになっています。」
ヘルスダイレクト・オーストラリア社
チーフアーキテクト ピーター・ジェームズ氏

さらに詳しく

YipitData のロゴ

「Databricks と Delta Lake を活用することで、組織内での大規模なデータ共有が可能になっています。さらに、本運用ワークロードの実行に伴うコストが 60% 低減し、数百万ドルのコスト削減を達成しました。」
YipitData 社 CTO スティーブ・ピュレック氏

さらに詳しく

コロンビアスポーツのロゴ

「Delta Lake は、データパイプラインの運用をシンプルにする ACID 特性によって、パイプラインの信頼性とデータの一貫性を向上させます。また、キャッシングやインデックス自動作成などの機能が、効率的なデータアクセスを可能にします。」
コロンビアスポーツウェア社 シニアエンタープライズデータマネージャー
ララ・マイナー氏

さらに詳しく

Viacom18 のロゴ

「Delta Lake でデータパイプラインの管理がシンプルになりました。運用コストも低減し、ダウンストリームの分析とデータサイエンスによる気づきの発見がスピードアップしています。」
Viacom18 社 デジタル変革・技術部門アシスタント VP
パリヤット・デイ氏

さらに詳しく

関連リソース

無料お試し・その他のご相談を承っております

Databricks の無料トライアル

Delta Lake 関連のドキュメント