メインコンテンツへジャンプ

Iceberg との互換性を実現する Delta Lake Universal Format (UniForm) が GA に

1 つのレイク、すべての形式: Delta Lake UniForm は、あらゆるニーズに合わせてデータ管理をシンプル化します
ジョナサン・ブリトー
フレッド・リュー
スーザン・ピアース
Share this post

Delta Lake は、長年にわたり最も人気があり最も高速なレイクハウス形式であることが証明されています現在 GA で利用可能な Delta Lake Universal Format (UniForm) は、Delta Lake の豊富なコネクタ エコシステムに基づいて構築されており、Delta Lake の優れた価格性能とスタック内のすべてのツールへのアクセスを組み合わせています。Delta Lake UniForm を使用すると、データの単一のコピーを書き込むだけで、 Linux Foundation Delta Lake Apache Iceberg Apache Hudi (近日公開予定) などの主要なオープン テーブル形式をサポートする任意のエンジンで利用できるようになります。このブログでは、以下の内容を取り上げます。

 

  • Delta Lake UniForm を使用したオープン データレイクハウスの構築
  • あらゆるエンジンで高速なパフォーマンスを実現
  • Delta Lake UniForm でリキッドクラスタリングなどの高度な Delta Lake 機能を使用する

オープンレイクハウスの建設

Delta Lake は、多くの一般的なオープンソース フレームワークと商用エンジンからのサポートを備えた活気のあるコネクタ エコシステムを提供します。UniForm 、3 つのオープン テーブル形式間の固有の類似性を利用して、Delta Lake のエコシステムを拡張します。Delta Lake、Iceberg、Hudi はすべて Apache Parquet ファイル形式でデータを保存しますが、追加のメタデータを保存する方法が異なります。Delta Lake UniForm は、Parquet ファイルのコピーを 1 つ維持しながら、Delta Lake とともに Iceberg メタデータを生成します。Delta Lake UniForm に一度書き込むだけで、オープン形式のいずれかをサポートする任意のエンジンを使用してデータにアクセスできます。

 

Delta Lakeは、Java、Rust、Python、Delta Sharing、ファーストパーティプラットフォームにわたるエコシステムをサポートしており、UniFormにより、Delta LakeはIcebergおよびHudiエコシステムもサポートするようになりました。

Delta Lake UniForm を使用すると、ワークロードに最適なツールを選択でき、現在または将来に選択するあらゆるアーキテクチャをサポートできるデータの柔軟性が得られます。

どこでも高速なパフォーマンス

オープンテーブル形式を採用するプラットフォームが増えるにつれて、 Delta Lake UniForm を記述して、高価なデータ複製なしでより幅広いツールにアクセスできるようになります。これにより、以前は独自の形式で保存されていたデータの柔軟性が向上し、コストが削減されます。Delta Lake UniForm を使用すると、 Databricks のクラス最高の取り込みと ETL の価格性能活用できます。 スタック内の任意のデータウェアハウスまたは BI ツールに接続します。これらのコスト削減は、下流のクエリ パフォーマンスを犠牲にすることなく実現できます。

 

以下のベンチマークは、Databricks を使用して Delta Lake UniForm に Parquet ファイルを取り込む場合と、Snowflake を使用して Iceberg に Parquet ファイルを取り込む場合のパフォーマンスを比較します。

Databricks は Snowflake より 6 倍速く Parquet を取り込みました

Databricks は、Snowflake よりも 6 倍速くParquet を取り込みました。また、Databricks は Snowflake よりも 90% 安価でした。Delta Lake UniForm は Delta と Iceberg の両方のメタデータを書き込むため、テーブルは Snowflake からアクセス可能なままです。Snowflake では、Delta Lake UniForm は Iceberg カタログ統合を使用して読み取ることができます。カタログ統合により、外部の Iceberg カタログまたはオブジェクト ストレージを参照する Iceberg テーブルを Snowflake に作成できます。ベンチマークでは、Delta Lake UniForm のすぐに使用できる読み取りパフォーマンスは、Snowflake が管理する Iceberg に匹敵することが示されています。

 

読み取りのパフォーマンスの違いはほとんどありません

 

クエリ パフォーマンスの違いはほぼゼロです。Delta Lake UniForm を使用すると、独自のストレージ バケット内の単一のデータ コピーから最速のパフォーマンスとユニバーサル接続をすべて実現できます 

 

Delta Lake UniFormを使用すると、あらゆるフォーマットの最高のものが得られます

Delta Lake UniFormを作成する際、 Delta Lakeの高度なテーブル機能を引き続き活用できます。たとえば、 Delta Lake UniFormは、 リキッドクラスタリングを使用してDeltaテーブルで有効にできるようになりました。 リキッドクラスタリングは、Deltaテーブルを動的にクラスタリングするインテリジェントなデータ管理手法であり、分析のニーズに合わせてデータレイアウトを進化させることができます。

 

Delta Lake UniForm とリキッドクラスタリングを組み合わせることで、 Icebergや Hudi エンジンから読み取る場合でも高速なクエリ パフォーマンスが実現します。これが機能するのは、リキッドクラスタリングが物理データ レイアウトを最適化すると、 Delta Lake UniForm がDelta LakeとIceberg両方のメタデータにこれらの改善を反映するためです。 Delta Lake UniFormは追加のメタデータのみを書き込むため、 書き込み時のオーバーヘッドはごくわずかです。Liquidは取り込み中に新しいデータを自動的にクラスター化するため、クエリのパフォーマンスは時間の経過とともに高速に維持されます。

顧客がDelta Lake UniFormをどのように使用しているか

パブリック プレビュー期間中、組織は、さまざまな BI および分析ユース ケースにおいて、Snowflake、BigQuery、Redshift、Athena などの人気の Iceberg リーダー クライアントと Delta Lake UniForm の互換性を実証しました。

 

この画像は、さまざまな種類のデータソースとさまざまなエンジンおよびリーダー間の レイヤーとして DatabricksDelta LakeUniForm を使用する を示しています。ETL

 

現在 GA になっているDelta Lake UniForm は、本番運用ワークロードに対応できる状態です。 Databricksでは、顧客はすでに UniForm を記述することの利点に気づき始めています。

M Scienceでは、UniFormによって、DeltaまたはIcebergをサポートする任意のエンジンでクエリできるデータの単一コピーを書き込む柔軟性が得られました。これは、コストを削減し、価値実現までの時間を短縮するための鍵となります。

-- Ben Tallman 氏 (M Science 最高技術責任者)

M Scienceロゴ

顧客や商用ベンダーが、シンプルさ、柔軟性、低コストという理由でオープンな LakeHouse アーキテクチャを選択することを嬉しく思います。GA 後も、 Delta Lake UniForm の相互運用性とシームレス性を高め、ユーザーがエコシステム内の任意のツールを使用できるようにするための投資を継続します。

新しいDelta Lake Delta Lake UniForm 機能は 、Delta Lake 3.2 リリース のDatabricks として利用できます 。Databricks お客様はDatabricks Runtime バージョン 14.3 にアップグレードすることでこれらの機能を使用できます。

 

以下のリンクから、選択した Iceberg リーダーからDelta Lake UniFormを読み取る方法について詳しく知ることができます

Databricks 無料トライアル

関連記事

新しいUniversal Format と Liquid Clusteringを備えたDelta Lake 3.0の発表

翻訳:Saki Kitaoka. - Original Blog Link Linux Foundation オープンソース Delta Lake Project, の次のメジャーリリースである Delta Lake 3.0 を発表できることを嬉しく思います。( preview 中) このリリースに対する Delta Lake コミュニティの貴重な貢献に心から感謝いたします。...

リキッドクラスタリングの一般提供開始のお知らせ

Databricks データインテリジェンスプラットフォームで Delta Lake リキッドクラスタリングが一般提供されることをお知らせします。リキッドクラスタリングは、テーブル パーティショニングと ZORDER に代わる革新的なデータ管理手法であり、データ レイアウトを微調整することなく、 最適 なクエリ パフォーマンスを実現できます 。 リキッドクラスタリングは、 データ レイアウト関連の決定を大幅に簡素化し 、 データを書き換えずにクラスタリング キーを再定義する 柔軟性を提供します 。 これにより、時間の経過とともに分析ニーズに合わせてデータ レイアウトを進化させることができます。これは、...
エンジニアリングのブログ一覧へ