メインコンテンツへジャンプ

データブリックス、Apache Iceberg™の創始者が設立した Tabular社の買収に合意

June 4, 2024
Share this post

両社は、オープンレイクハウスの共通のビジョンに向け連携

 

データとAIの企業である Databricks(本社:米国カリフォルニア州サンフランシスコ、以下「データブリックス」)は、データマネジメント企業のTabular(本社:米国カリフォルニア州サンノゼ)の買収に合意したことを、米国時間の6月4日に発表しました。Tabularは、大規模な分析データセット用のオープンテーブル・フォーマットである「Apache Iceberg™」を開発したライアン・ブルー、ダニエル・ウィークス、ジェイソン・リードによって設立された企業です。Apache Iceberg™とLinux FoundationのDelta Lakeという、2つの最先端のオープンソースレイクハウスフォーマットを生み出したクリエイターたちの集結により、データブリックスはデータの互換性を高め、組織のデータ活用がデータ形式によって制限されることがない環境づくりを促進していきます。

データブリックスはDelta LakeおよびIcebergのコミュニティと密接に連携し、短期的には「Delta Lake UniForm」の内部で、長期的には単一でオープンかつ共通の相互運用性の標準化に向けて進化させ、レイクハウスにフォーマットの互換性をもたらします。データブリックスとTabularはオープンレイクハウスの共通のビジョンの実現に向けて、協働していきます。

 

レイクハウスアーキテクチャの台頭とフォーマットの非互換性

レイクハウスアーキテクチャは、2020年にデータブリックスによって考案され、従来のデータウェアハウジングワークロードとAIワークロードを、管理された単一のデータコピー上で統合することが可能になりました。この実現には、異なるワークロード、アプリケーション、およびエンジンが、同じデータにアクセスできるよう、すべてのデータがオープンフォーマットである必要がありました。レイクハウスアーキテクチャは、データへのアクセスを民主化することで、企業の生産性を最大化します。これと対照的なのが、独自データウェアハウスです。データの読み書き、または共有ができるのは専有のSQLエンジンのみであり、他のアプリケーションで使用するためには、データをコピーしたりエクスポートしたりする必要があるため、ベンダーロックインの度合いが高いからです。取組から4年後には、74%の企業がレイクハウスアーキテクチャの導入に至っています。

 

レイクハウスの基盤は、オブジェクトストレージに保存されたデータに対するACIDトランザクションを可能にするオープンソースのデータフォーマットです。これらのフォーマットは、データレイク上のデータ操作の信頼性とパフォーマンスを劇的に向上させ、「Apache Spark™」、「Trino」、「Presto」などのオープンソースエンジンのために特別に設計されています。この課題に対処するために、データブリックスはLinux Foundationと協力し、Delta Lakeプロジェクトに取り組みました。このオープンソースプロジェクトには、さまざまな組織から500人以上のプログラマーが参加し、グローバルで1万社以上が毎日、平均4エクサバイト以上のデータを処理するためにDelta Lakeを使用しています。

 

Delta Lakeが生み出された同時期に、ライアン・ブルーとダニエル・ウィークスはNetflix社でIcebergプロジェクトを開発し、それをApache Software Foundationに寄贈しました。それ以降、これらの2つのプロジェクトは、レイクハウスフォーマットの2つの主要なオープンソース標準となりました。これらのフォーマットはどちらもApache Parquetに基づいており、同じような目標とデザインを共有していますが、独立して開発されたために互換性がありませんでした。

 

その後、多くのオープンソースや専有エンジンがこれらのフォーマットを採用しました。しかし、通常は1つの標準しか採用せず、その標準の一部だけを採用することが多かったのです。これにより、企業のデータが断片化およびサイロ化し、レイクハウスアーキテクチャの価値が損なわれました。

 

相互運用性への道

企業がレイクハウスの利点を活用するためには、データの相互運用性が必要となります。データブリックスは、IcebergおよびDelta Lakeコミュニティと緊密に連携し、フォーマットそのものに相互運用性をもたらすことを目指しています。その過程は長期にわたり、達成には数年かかることが見込まれます。そのためデータブリックスは 、2023年8月にDelta Lake UniFormを発表しました。UniForm テーブルは Delta Lake、Iceberg、およびHudi間の相互運用性を提供し、Icebergレストフルカタログインターフェースをサポートすることで、企業がすでに使い慣れた分析エンジンとツールをすべてのデータに対して使用できるようにします。米国時間6月4日より正式提供を開始したUniFormは、企業が互換性を実現するのに役立ちます。Icebergを生み出したチームがデータブリックスに加わることにより、データブリックスはDelta Lake UniFormが目指す領域を大きく広げていくことになります。

 

データブリックスのアリ・ゴディシ共同創業者兼 CEOは、次のように述べています。
「データブリックスは、レイクハウスのパイオニアです。過去4年間で、データウェアハウスとデータレイクの長所を組み合わせたレイクハウスアーキテクチャは、世界中で広く受け入れられ、お客様の総保有コスト(TCO)の削減やオープンソースの活用、AIプロジェクトの迅速な実現を支援してきました。しかし、レイクハウスのパラダイムは、Delta LakeとIcebergという2大フォーマットの間で分かれてきました。データブリックスとTabularは、オープンソースコミュニティと協力してこれらの2つのフォーマットをより近づけ、オープン性を高め、サイロ化と摩擦を減らしていきます。昨年、私たちはDelta Lake UniFormを発表し、両フォーマット間に相互運用性をもたらしました。オープンデータ・レイクハウスフォーマットの第一人者を結集し、UniFormを最善の方法として活用することにより、あらゆるワークロードでデータを統合できることを嬉しく思います」

 

「オープンソースであること」への共通のコミットメント

データブリックスとTabularには、オープンソースフォーマットを支持してきた共通の歴史があります。両社ともに、独自に開発されたオープンソースの技術を商業化するために創業されました。今日、データブリックスは収益面において最も成功した独立系オープンソース企業であり、オープンソースプロジェクトに1200万行のコードを寄贈しています。本買収は、データブリックスのクラウドにおけるオープンフォーマットとオープンソースデータへのコミットメントを表したもので、企業が自社データを自ら管理し、ベンダーの独自フォーマットによる制限から解放されることが期待されます。

 

Tabular共同創立者でCEOのライアン・ブルーは、次のように述べています。
「私たちは、正確性やパフォーマンス、スケーラビリティに関する重要なデータ課題を解決するために、Apache Icebergを開発しました。オープンレイクハウスが業界標準になったことが大きな後押しとなり、IcebergとDelta Lakeの両方が急速に普及しているのは素晴らしいことです。Tabularはデータブリックスに加わることで、オープンレイクハウスフォーマットに基づいた最高のデータ管理プラットフォームを構築し、『正しい』と言われているフォーマット選択や独自データフォーマットに縛られることに対して企業が持つ懸念を、払しょくすることに努めていきます」

 

データブリックスとTabularの提携については、6月10日~13日に米国・サンフランシスコで開催されるデータブリックスの年次イベント「Data + AI Summit」(databricks.com/dataaisummit)でも詳細が説明される予定です。

 

本買収提案について

本買収提案は、一般的なクロージング条件に従い、2024年度の第2四半期(2024年5~7月)中に完了予定です。

 

Tabularについて

TabularはApache Icebergのクリエイターによって創立された独立系データプラットフォームです。データ基盤の弱点を補うことで、データエンジニアやデータサイエンティストが直面している問題の解決を可能にします。 Tabularは、 Netflix元社員であるライアン・ブルー、ダン・ウィークス、ジェイソン・リードによって創立されました。ブルーはIcebergのPMC会長も務めており、ウィークスはIcebergのPMCメンバーとしても活躍しています。

 

データブリックスについて

DatabricksはデータとAIの会社です。Comcast、Condé Nast、Grammarly、そしてFortune 500の60%以上を含む世界中の10,000以上の組織が、データ、アナリティクスおよびAIを統合し民主化するデータブリックスのデータ・インテリジェンス・プラットフォームを利用しています。米国カリフォルニア州サンフランシスコに本社を置き、世界中にオフィスを構えるデータブリックスは、レイクハウス、Apache Spark™、Delta Lake、MLflowのクリエイターによって創立されました。詳細については、ウェブサイト(日本語)をご確認ください。

Recent Press Releases

Databricks Strengthens Presence in Korea with Senior Leadership Hires
記事を読む
Introducing Databricks LakeFlow: A Unified, Intelligent Solution for Data Engineering
記事を読む
Databricks Open Sources Unity Catalog, Creating the Industry's Only Universal Catalog for Data and AI
記事を読む
Introducing Databricks AI/BI: Intelligent Analytics for Real-World Data
記事を読む
Databricks Unveils New Mosaic AI Capabilities to Help Customers Build Production-Quality AI Systems and Applications
記事を読む
View All