Delta Lake UniForm

オープンデータレイクハウスのための、フォーマットに依存しない高性能ストレージ

無料トライアルデモを見る

オライリーの「Delta Lake: The Definitive Guide」

Delta Lake UniForm は、レイクハウス内の異なるフォーマットや種類のデータを統合し、分析やAI ワークロードでの活用を可能にします。

ダウンロード

Delta Lake UniForm は、レイクハウス内のあらゆるフォーマットやタイプのデータを統合し、効果的な分析や AI ワークロードを実現します。

Delta Lake UniForm unifies the data in your lakehouse

さまざまなフォーマットに対応

データのフォーマットを問わず、既存の分析ツールや AI ツールを利用できます。UniForm はフォーマット間を即座に自動変換するため、ソースデータの単一コピーを保持したまま、任意のIceberg や Hudi クライアントを使用して Unity Catalog エンドポイントから Delta テーブルを読み込むことができます。UniForm を使用することで、ベンダーのロックインなしにデータのポータビリティを維持できます。

エコシステム全体でつながる

Delta Lake には広範なコネクタエコシステムがあり、複数のフレームワークと言語をサポートしています。Delta Sharing は、セキュアなデータ共有のための新しいオープンプロトコルです。データの場所を問わず、組織内外でのデータ共有を容易にします。Unity Catalog とのネイティブな統合により、組織間の共有データを一元的に管理、監視します。データ資産をベンダーやパートナーとセキュアに共有して連携を強化すると同時に、セキュリティおよびコンプライアンスの要件を満たします。また、主要なツールやプラットフォームとの統合により、任意のツールから共有データを視覚化、クエリ、強化、管理できます。

高速で信頼性の高い性能

Delta Lake は、データロードとクエリを他のストレージ形式よりも最大 1.7 倍高速化し、大規模なスケールとスピードを提供します。1 万社以上のお客さまに実運用で使用されている Delta Lake は、単一のパイプラインで1 秒あたり 4,000 万件を超えるイベントを処理できるよう拡張されています。Delta Lake では、1 日あたり 5 エクサバイトを超える処理が行われています。

Delta Lake テーブルで UniForm が有効になっている場合、他のフォーマットのメタデータを書き込んでもクエリ性能が低下することはありません。UniForm テーブルは、ネイティブエンジンの独自フォーマットと同等の読み取り性能を発揮します。

AI が最適な価格性能を実現

Databricks データインテリジェンスプラットフォームは、使用パターンに基づいてデータを最適化します。Databricks データインテリジェンスエンジンである DatabricksIQ が提供するAI主導のパフォーマンス拡張機能により、データの管理、設定、チューニングが自動的に行われます。

リキッドクラスタリング：パーティショニングにつきものの頭痛の種である、高いカーディナリティのカラムをパーティショニングできるかどうかの心配や、パーティションカラムを変更する際の高価な書き換えをすることなく、十分に調整、パーティショニングされたテーブルのパフォーマンスを提供します。その結果、最小限の構成で、高速かつ適切にクラスタ化されたテーブルが実現します。

予測最適化：最高のパフォーマンスと価格のためにデータを自動的に最適化します。データの使用パターンから学習し、実行すべき適切な最適化のプランを構築し、超最適化されたサーバーレスインフラ上でそれらの最適化を実行します。

大規模運用のためのセキュリティとガバナンス

Delta Lake は、詳細なアクセス制御によりデータガバナンスを確実にしてリスクを軽減します。これは通常のデータレイクでは不可能です。データレイクのデータを迅速かつ正確に更新し、GDPR をはじめとする規制へのコンプライアンス、監査ログによる高度なデータガバナンスの維持を可能にします。これらのケイパビリティは、レイクハウス初のマルチクラウドデータカタログである Unity Catalog の一部としてDatabricks にネイティブに統合され、拡張されています。

データエンジニアリングの自動化と高信頼性

DLT が Delta Lake のデータを最新かつ高品質に保つデータパイプラインの構築・管理を容易にし、データエンジニアリングをシンプルにします。また、宣言型パイプラインの開発、高信頼性データ、クラウドスケールの本稼働環境がレイクハウス基盤の構築を可能にし、データエンジニアリングによる ETL の開発・管理をシンプルにします。

ユースケース

リアルタイムデータによる BI

ビジネスインテリジェンス（BI）のワークロードをデータレイク上で直接実行することで、新鮮なリアルタイムデータの素早いクエリを可能にし、データドリブンな意思決定を加速させます。Delta Lake は、データウェアハウスの性能とデータレイクの経済性を同時に実現するマルチクラウドのレイクハウスアーキテクチャの運用を可能にします。SQL ワークロードの実行においては、従来のクラウド型データウェアハウスと比較して最大 6 倍の価格性能を発揮します。

詳しく見る

バッチ／ストリーミングの両方に対応

バッチ／ストリーミング両方の入力を単一のシンプルなアーキテクチャで処理し、冗長なシステムや運用上の課題を回避します。Delta Lake のテーブルは、バッチテーブルでもあり、ストリーミングソースとシンクでもあります。ストリーミングデータの取り込み、バッチ履歴バックフィル、対話型クエリは全てすぐに動作し、Spark の構造化ストリーミングと直接統合されます。

規制への対応

Delta Lake は、不正なデータの取り込み、コンプライアンスのためのデータ削除、変更データキャプチャのためのデータの変更といった課題を解決します。データレイクでの ACID トランザクションがサポートされているため、全操作を成功させるか、または、再実行に備えて全操作を完全に中断させます。データパイプラインを新たに作成する必要はありません。さらに、Delta Lake によって、全トランザクションの履歴がデータレイクに記録されます。過去のバージョンのデータに容易にアクセス可能にすることで、GDPR／CCPA などのコンプライアンス要件を満たします。

さらに詳しく

Unity Catalog

Delta Sharing

DatabricksIQ

導入事例

「Databricks の導入によって市場投入までの時間を短縮できました。分析や運用管理が効率化し、医療部門の新たなニーズに対応できるようになっています。」
ヘルスダイレクト・オーストラリア社
チーフアーキテクトピーター・ジェームズ氏

詳しく見る

「Databricks と Delta Lake を活用することで、組織内での大規模なデータ共有が可能になっています。さらに、本運用ワークロードの実行に伴うコストが 60% 低減し、数百万ドルのコスト削減を達成しました。」
YipitＤata 社 CTO スティーブ・ピュレック氏

詳しく見る

「Delta Lake は、データパイプラインの運用をシンプルにする ACID 特性によって、パイプラインの信頼性とデータの一貫性を向上させます。また、キャッシングやインデックス自動作成などの機能が、効率的なデータアクセスを可能にします。」
コロンビアスポーツウェア社シニアエンタープライズデータマネージャー
ララ・マイナー氏

詳しく見る