メインコンテンツへジャンプ

Databricks + Tabular

Adam Conway(アダム・コンウェイ)
Ali Ghodsi
Arsalan Tavakoli-Shiraji(アルサラン・タバコリ・シラジ)
Reynold Xin(レイノルド・シン)
Share this post

私たちは、データマネジメント会社であるTabular, Incを買収することに合意したことを発表できることを非常に嬉しく思います。この会社はRyan Blue、Daniel Weeks、Jason Reidによって設立されました。この買収により、Apache Iceberg™のオリジナルの作成者と、Linux Foundation Delta Lakeの作成者たちが一堂に会することになります。これにより、データの形式に縛られることなくデータ互換性を実現するための道が開かれます。本ブログでは、短期的にはDelta Lake UniForm内で、長期的には単一でオープンかつ共通の相互運用性の標準へと進化させることを目指し、IcebergおよびDelta Lakeコミュニティと緊密に連携してフォーマット互換性を実現する方法について説明します。取引が完了次第、このチームを迎えることを楽しみにしており、オープンレイクハウスのビジョンに向けて共同で取り組むことに興奮しています。

レイクハウスアーキテクチャの台頭とフォーマットの非互換性

レイクハウスアーキテクチャは、2020年にDatabricksによって考案され、従来のデータウェアハウジングワークロードとAIワークロードを単一の管理されたデータコピー上で統合することを可能にしました。これを実現するためには、すべてのデータがオープンフォーマットである必要がありました。そうすることで、異なるワークロード、アプリケーション、およびエンジンが同じデータにアクセスできるようになります。レイクハウスアーキテクチャはデータへのアクセスを民主化することで企業の生産性を最大化します。これは、専有のデータウェアハウスとは対照的であり、専有のSQLエンジンのみがデータを読み書きまたは共有できるため、他のアプリケーションで使用するためにデータをコピーおよびエクスポートする必要があり、高度なベンダーロックインが発生します。MIT Technology Reviewによる調査によると、4年後、レイクハウスアーキテクチャは市場を席巻しており、74%の企業がレイクハウスを導入しています。

レイクハウスの基盤は、オブジェクトストレージに保存されたデータに対するACIDトランザクションを可能にするオープンソースのデータフォーマットです。これらのフォーマットは、データレイク上のデータ操作の信頼性とパフォーマンスを劇的に向上させ、Apache Spark™、Trino、Prestoなどのオープンソースエンジンのために特別に設計されました。この課題に対処するために、私たちはLinux Foundationと協力してDelta Lakeプロジェクトを作成しました。Delta Lakeの採用は、その発足以来のことを非常に誇りに思います。このオープンソースプロジェクトには、さまざまな組織から500人以上のコードコントリビューターがおり、世界中の10,000社以上の企業が平均して毎日4エクサバイト以上のデータを処理するためにDelta Lakeを使用しています。

ほぼ同時期に、RyanとDanielはNetflixでIcebergプロジェクトを開発し、それをApache Software Foundationに寄贈しました。これらの2つのプロジェクトは、レイクハウスフォーマットの2つの主要なオープンソース標準として浮上しました。残念ながら、これらのフォーマットはどちらもApache Parquetに基づいており、同様の目標とデザインを共有していますが、独立して開発されたために互換性がなくなりました。

時間が経つにつれて、多くの他のオープンソースおよび専有エンジンがこれらのフォーマットを採用しました。しかし、通常は1つの標準しか採用せず、その標準の一部だけを採用することが多かったのです。これにより、企業のデータが効果的に断片化および孤立し、レイクハウスアーキテクチャの価値が損なわれました。

相互運用性への道

基本的に、企業はレイクハウスの利点を実現するためにデータの相互運用性を持つ必要があります。私たちはIcebergおよびDelta Lakeコミュニティと緊密に連携して、フォーマットそのものに相互運用性をもたらすことを目指しています。これは長い旅であり、これらのコミュニティで数年かかる可能性があります。そのため、昨年、世界にDelta Lake UniFormを紹介しました。UniFormテーブルは、Delta Lake、Iceberg、およびHudi間の相互運用性を提供し、企業がすでに慣れ親しんだ分析エンジンとツールをすべてのデータに対して使用できるようにするIcebergレストフルカタログインターフェースをサポートします。UniFormを使用することで、今日互換性を得ることができ、Icebergオリジナルチームの追加により、Delta Lake UniFormの野望を大幅に広げるために多大な投資を行う予定です。本日GAになったUniFormは、企業が互換性を実現するのに役立ちます。Icebergオリジナルチームの追加により、DatabricksはDelta Lake UniFormの野望を大幅に広げるでしょう。

『オープンネス』への共通のコミットメント

最後に、DatabricksとTabularはオープンソースフォーマットを推進する歴史を共有しています。両社は創設者によって作成されたオープンソース技術を商業化するために設立され、今日、Databricksは収益面で最も成功した独立系オープンソース企業であり、オープンソースプロジェクトに1200万行のコードを寄贈しています。この買収は、クラウドにおけるオープンフォーマットおよびオープンソースデータに対する私たちのコミットメントを強調し、企業がデータを管理し、専有ベンダー所有のフォーマットによって生じるロックインから解放されるのを助けます。

DatabricksとTabularが協力することについて詳しく知るには、6月10〜13日に開催されるData + AI Summitに登録してください: https://www.databricks.com/dataaisummit/virtual-experience

Databricks 無料トライアル

関連記事

Iceberg との互換性を実現する Delta Lake Universal Format (UniForm) が GA に

現在一般提供されている Delta Lake UniForm により、顧客は Iceberg エコシステム内のツールに接続する際に、Delta Lake の業界をリードする価格性能のメリットを享受できるようになります。

Delta UniForm: a universal format for lakehouse interoperability

Update: BigQuery now offers native support for Delta Lake through BigLake. Check out the documentation for more information. One of the key challenges...
Databricks ブログ一覧へ