Iceberg との互換性を実現する Delta Lake Universal Format (UniForm) が GA に
Delta Lake は、長年にわたり最も人気があり、最も高速なレイクハウス形式であることが証明されています。現在 GA で利用可能な Delta Lake Universal Format (UniForm) は、Delta Lake の豊富なコネクタ エコシステムに基づいて構築されており、Delta Lake の優れた価格性能とスタック内のすべてのツールへのアクセスを組み合わせています。Delta Lake UniForm を使用すると、データの単一のコピーを書き込むだけで、 Linux Foundation Delta Lake、 Apache Iceberg、 Apache Hudi (近日公開予定) などの主要なオープン テーブル形式をサポートする任意のエンジンで利用できるようになります。このブログでは、以下の内容を取り上げます。
- Delta Lake UniForm を使用したオープン データレイクハウスの構築
- あらゆるエンジンで高速 なパフォーマンスを実現
- Delta Lake UniForm でリキッドクラスタリングなどの高度な Delta Lake 機能を使用する
オープンレイクハウスの建設
Delta Lake は、多くの一般的なオープンソース フレームワークと商用エンジンからのサポートを備えた活気のあるコネクタ エコシステムを提供します。UniForm は、3 つのオープン テーブル形式間の固有の類似性を利用して、Delta Lake のエコシステムを拡張します。Delta Lake、Iceberg、Hudi はすべて Apache Parquet ファイル形式でデータを保存しますが、追加のメタデータを保存する方法が異なります。Delta Lake UniForm は、Parquet ファイルのコピーを 1 つ維持しながら、Delta Lake とともに Iceberg メタデータを生成します。Delta Lake UniForm に一度書き込むだけで、オープン形式のいずれかをサポートする任意のエンジンを使用してデータにアクセスできます。
Delta Lake UniForm を使用すると、ワークロードに最適なツールを選択でき、現在または将来に選択するあらゆるアーキテクチャをサポートできるデータの柔軟性が得られます。
どこでも高速なパフォーマンス
オープンテーブル形式を採用するプラットフォームが増えるにつれて、 Delta Lake UniForm を記述して、高価なデータ複製なしでより幅広いツールにアクセスできるようになります。これにより、以前は独自の形式で保存されていたデータの柔軟性が向上し、コストが削減されます。Delta Lake UniForm を使用すると、 Databricks のクラス最高の取り込みと ETL の価格性能を活用できます。 スタック内の任意のデータウェアハウスまたは BI ツールに接続します。これらのコスト削減は、下流のクエリ パフォーマンスを犠牲にすることなく実現できます。
以下のベンチマークは、Databricks を使用して Delta Lake UniForm に Parquet ファイルを取り込む場合と、Snowflake を使用して Iceberg に Parquet ファイルを取り込む場合のパフォーマンスを比較します。
Databricks は、Snowflake よりも 6 倍速くParquet を取り込みました。また、Databricks は Snowflake よりも 90% 安価でした。Delta Lake UniForm は Delta と Iceberg の両方のメタデータを書き込むため、テーブルは Snowflake からアクセス可能なままです。Snowflake では、Delta Lake UniForm は Iceberg カタログ統合を使用して読み取ることができます。カタログ統合により、外部の Iceberg カタログまたはオブジェクト ストレージを参照する Iceberg テーブルを Snowflake に作成できます。ベンチマークでは、Delta Lake UniForm のすぐに使用できる読み取りパフォーマンスは、Snowflake が管理する Iceberg に匹敵することが示されています。
クエリ パフォーマンスの違いはほぼゼロです。Delta Lake UniForm を使用すると、独自のストレージ バケット内の単一のデータ コピーから最速のパフォーマンスとユニバーサル接続をすべて実現できます。
Delta Lake UniFormを使用すると、あらゆるフォーマットの最高のものが得られます
Delta Lake UniFormを作成する際、 Delta Lakeの高度なテーブル機能を引き続き活用できます。たとえば、 Delta Lake UniFormは、 リキッドクラスタリングを使用してDeltaテーブルで有効にできるようになりました。 リキッドクラスタリングは、Deltaテーブルを動的にクラスタリングするインテリジェントなデータ管理手法であり、分析のニーズに合わせてデータレイアウトを進化させることがで きます。
Delta Lake UniForm とリキッドクラスタリングを組み合わせることで、 Icebergや Hudi エンジンから読み取る場合でも高速なクエリ パフォーマンスが実現します。これが機能するのは、リキッドクラスタリングが物理データ レイアウトを最適化すると、 Delta Lake UniForm がDelta LakeとIceberg両方のメタデータにこれらの改善を反映するためです。 Delta Lake UniFormは追加のメタデータのみを書き込むため、 書き込み時のオーバーヘッドはごくわずかです。Liquidは取り込み中に新しいデータを自動的にクラスター化するため、クエリのパフォーマンスは時間の経過とともに高速に維持されます。
顧客がDelta Lake UniFormをどのように使用しているか
パブリック プレビュー期間中、組織は、さまざまな BI および分析ユース ケースにおいて、Snowflake、BigQuery、Redshift、Athena などの人気の Iceberg リーダー クライアントと Delta Lake UniForm の互換性を実証しました。