データブリックス、Unity Catalogをオープンソース化 、データとAIのための業界唯一のユニバーサルなオープンソースカタログをリリース
June 12, 2024
データとAIの企業であるDatabricks(本社:米国カリフォルニア州サンフランシスコ、以下「データブリックス」)は、「Unity Catalog」のオープンソース化を発表しました。Unity CatalogはデータとAIのガバナンスを、クラウド、データ形式、データ・プラットフォーム間で横断的に行うことが可能な業界唯一の統合ソリューションです。この取り組みは、オープンなエコシステムに対する当社のコミットメントに基づくものであり、お客様はベンダーにロックインされることなく、必要な柔軟性とコントロールを確保することが可能となります。データブリックスは、Amazon Web Services(AWS)、Google Cloud、マイクロソフト、NVIDIA、セールスフォース等のサポートを得て、データとAI のためのオープンカタログ標準の新時代を切り開きます。
「Unity Catalog OSS」は、Delta Lake、Apache IcebergTM、Apache HudiTMクライアントのテーブルをDelta Lake UniForm 経由で読み込む機能など、あらゆるデータ形式とコンピュートエンジンをサポートするユニバーサルインターフェースを提供します。また、「Iceberg REST Catalog」と「Hive Metastore(HMS)」のインターフェース標準もサポートしています。さらに、Unity Catalog OSSは、表データ、非表データ、および機械学習(ML)モデルや生成AIツールなどのAIアセットにわたる統一されたガバナンスを提供し、企業・組織によるスケール管理を簡素化します。
業界をリードするデータとAIカタログの「Unity Catalog」
データブリックスは、データおよびAIワークロード向けに相互運用可能なカタログを必要とするお客様の要望に応えるため、2021年にUnity Catalogを発表しました。歴史的に、企業・組織は複数の異なる単一目的のソリューションに依存し、プラットフォーム間、データとAIアセット間のサイロを作り出してきました。このようなサイロによって、複数の表形式の表データ、非構造化データ、MLモデル、ベクトルインデックス、AIツールを組み合わせた、最新のデータおよびAIアプリケーションを構築することが困難になっていました。お客様は、メタデータのサイロを管理するための複雑なWebを作成する様々なエンジンがアクセスできるよう、データを異なる場所や異なるフォーマットにコピーしたり、カタログ間でメタデータを同期するためのDIYソリューションを維持したりするなどして対応していました。これらの対応策はコストと複雑さを増大させ、ガバナンスを弱体化させ、アクセス制御も断片化されていましたが、Unity Catalogにより、10,000社を超える企業のサイロ化が解消されます。
データブリックス共同創業者兼CEOのアリ・ゴディシは次のように述べています。
「当社のお客様はUnity Catalogに満足されています。複数の単一目的のソリューションをつなぎ合わせるのとは対照的に、表形式データ、非構造化データ、AIやMLのアセットなど全てのデータオブジェクトを、データブリックスの『データ・インテリジェンス・プラットフォーム内のSSOT(信頼できる唯一の情報源)で管理することができるからです。当社のプラットフォームは、すべてのデータがデフォルトでオープンフォーマットになっている業界唯一の主要データ・プラットフォームであり、今ではメタデータとガバナンスもオープンになっています。そのため、企業は現代のデータとAI環境で必要なガバナンス・ソリューションを得ることができます。Unity Catalogをオープンソース化し、コードを公開できることを嬉しく思います。私たちは今後、パートナーとの緊密な協力のもと、オープン標準を進化させていきます」
データとAIのための業界唯一のユニバーサルなカタログであるUnity Catalog OSSの主な特長は、以下の通りです。
- 相互運用性:Unity Catalog OSSは、Delta Lake、Apache Iceberg™ 、Apache Hudi™ クライアントのテーブルをDelta Lake UniForm経由で読み込む機能など、あらゆるデータ形式とコンピュートエンジンをサポートするユニバーサルインターフェースを提供します。また、Iceberg REST CatalogとHive Metastore(HMS)のインターフェース標準もサポートしています。Unity Catalog OSSは、Microsoft Azure、AWS、GCP、Salesforceなどの主要なクラウドプラットフォーム、Apache Spark™、Presto、Trino、DuckDB、Daft、PuppyGraph、StarRocksなどのコンピュートエンジン、dbt Labs、Confluent、Eventual、Fivetran、Granica、Immuta、Informatica、LanceDB、LangChain、Tecton、UnstructuredなどのデータおよびAIプラットフォームと相互運用が可能です。
- 統一されたガバナンス:Unity Catalog OSSは、表形式データ、非表形式データ、およびMLモデルや生成AIツールなど、AIアセット横断的に統一されたガバナンスを可能にし、スケールに応じた管理、ディスカバリー、開発を簡素化できます。
- オープン性:オープンなAPIとApache 2.0ライセンスのオープンソースサーバーにより、Unity Catalog OSSは、さまざまなエンジン、ツール、プラットフォーム間での幅広い相互運用性を可能にし、柔軟性とお客様の選択肢を最大化します。
AT&T データ・プラットフォーム担当バイス・プレジデント Matt Dugan氏:
「AT&Tは、当社のプラットフォームとデータを相互運用可能にすることに注力しています。Unity Catalogのオープンソース化の発表により、オープン標準を通じてレイクハウスのガバナンスとメタデータ管理を可能にするデータブリックスの新たな取り組みに勇気づけられました。データやAI資産を、一貫したガバナンスで相互運用可能なツールで柔軟に活用することは、AT&Tのデータ・プラットフォーム戦略の中核をなすものです」
Nasdaq キャピタル・アクセス・プラットフォーム担当バイス・プレジデント Lenny Rosenfeld氏:
「Nasdaqは、データブリックスのUnity Catalogを全体的なデータ管理戦略の一環として活用しています。データブリックスがUnity Catalogのオープンソース化を決定したことで、データのサイロ化を解消するソリューションが提供されるようになります。私たちは当社のお客様にサービスを提供していく中で、プラットフォームのさらなる拡張、ガバナンスの強化、データアプリケーションの近代化を進めていくことを楽しみにしています」
Rivian AIプラットフォーム担当ディレクター Jason Shiverick氏:
「Rivianでは、データブリックスのデータ・インテリジェンス・プラットフォームの採用により、次世代の電気アドベンチャー自動車(EAV)の構築に、データとAIを活用できるようになりました。データブリックスがUnity Catalogをオープンソース化し、オープンAPIをリリースすることで、ベンダーのロックインを心配することなく、当社のデータ全体に相互運用性をもたらすことを嬉しく思います。構造化データ、非構造化データ、MLモデル、生成AIツールなど、当社の全てのデータ資産に対するサポートと組み合わせてUnity Catalogを標準化することは、当社にとって簡単な決断でした」
サポート・クラウドパートナー企業のコメント
AWS 最高経営責任者 Matt Garman氏:
「データブリックスがデータとAIのためにUnity Catalogをオープンソース化することを嬉しく思います。当社は、Iceberg REST catalog APIの実装とともに、Unity Catalogがもたらす相互運用性とガバナンスの強化により、お客様がさまざまなツールやプラットフォームにわたってデータをシームレスに統合し、管理できるようになることに期待しています。AWS Lake Formation、Glue Data Catalog、そしてUnity Catalogによって、当社のお客様はデータエコシステムにおいて、これまで以上に柔軟性と制御性を手に入れることができるようになりました」
Google Cloud データ・AI技術パートナシップディレクター Ritika Suri氏:
「データブリックスがデータとAIのためのUnity Catalog標準をオープン化することを嬉しく思います。この開発は、お客様がデータの価値を最大化できるようにオープンで柔軟なソリューションを提供するという、当社のコミットメントに沿ったものです。当社は、Unity Catalogがお客様にもたらす相互運用性とガバナンス機能の強化を楽しみにしています」
マイクロソフト データ・AI・デジタルアプリケーションコーポレート・バイスプレジデント Jessica Hawk氏:
「マイクロソフトはデータブリックスとともに、Unity Catalogによって管理されるデータとAIアプリケーションのための選択可能なプラットフォームを提供し続けます。Microsoft AzureのサービスとデータブリックスのUnity Catalogの統合により、当社のお客様はデータとAIのための統一されたオープンなガバナンスを利用できるようになります。データブリックスがオープンソースのUnity Catalogにコミットすることで、お客様はより幅広い柔軟性と相互運用性を得ることができるようになります。これはオープン標準に対する当社のコミットメントとも合致するものです」
セールスフォース エグゼクティブ・バイス・プレジデント Ravi Loganathan氏:
「Salesforce Data Cloudは、Apache ParquetとApache Icebergのオープン標準に基づいて、ゼロから構築されています。当社のゼロコピー・イノベーションにより、お客様はデータをアンロックし、インサイトを導き出し、Customer 360全体でアクションを編成することができます。データブリックスがUniFormとUnity Catalogを通じてApache Icebergを採用することで、Delta LakeとIceberg間の相互運用性に関する重要な課題に対処できます。当社はデータブリックスをゼロコピー・パートナー・ネットワークのメンバーとして迎えることを嬉しく思うと同時に、構造化データ、非構造化データ、AIモデルにおいて魅力的な顧客価値を提供する、新しいオープンなUnity Catalogとの共同イノベーションを楽しみにしています」
サポート・データ&AIパートナー企業のコメント
Confluent 最高製品責任者 Shaun Clowes氏:
「Confluentのミッションは、データを動かし、組織があらゆる場所でデータを活用できるようにすることです。Unity Catalogのオープンソース化により、データブリックスがオープンデータのエコシステムに大きく貢献することを嬉しく思います。Confluent Cloud 上の Tableflow は、データストリームをワンクリックで Iceberg テーブルに変換し、データレイクのような場所へのリアルタイムデータの容易な配信を可能にします。業界をリードする当社のストリーミング機能とデータブリックスの堅牢なデータ管理ソリューションを組み合わせることにより、お客様はこれまで以上に効果的にデータを活用できるようになります」
dbt Labs 最高技術責任者 Mark Porter氏:
「Databricks と dbt Cloud は、データサイロを打破して効率的なコラボレーションを実現し、Delta Lake で ETL を簡素化して TCO を削減し、Unity Catalog でガバナンスを統一します。当社は、Unity Catalog OSSとオープンAPIのサポートを発表できることを嬉しく思います。このパートナーシップは、統一されたデータ・エクスペリエンスを提供し、我々のコミュニティがより大きなインサイトを得てイノベーションを推進できるようにするという当社のコミットメントを強調するものです」
DuckDB Labs 最高経営責任者 Hannes Mühleisen氏:
「Delta KernelはDuckDB Delta Extensionの構築を大幅に簡素化し、DuckDBからDelta Lakeへの容易なアクセスを可能にしました。Delta Kernelとデータと AI のオープン標準である Unity Catalog で、データブリックスと提携できることを嬉しく思います。このコラボレーションは、オープンソースのイノベーションとオープンデータレイクハウスの開発における大きな前進を意味します」
Eventual 最高経営責任者 Sammy Sidhu氏:
「Eventualでは、マルチモーダルデータのための主要なオープンソースの分散クエリーエンジンであるDaftを構築しました。当社は、表形式データと非構造化データの計算を統一するだけでは不十分であり、マルチモーダルカタログが生成AIデータレイクハウスを構築する上で極めて重要だと考えています。データブリックスや他のAIイノベーターと提携し、最新のデータとAIワークロードのためのUnity Catalogオープン標準を開発できることを嬉しく思います。」
FiveTran 最高製品責任者 Anjan Kundavaram氏:
「DatabricksがデータとAIのオープン標準としてUnity Catalogをオープンソース化することを嬉しく思います。これにより、データエコシステムにおけるより幅広い選択肢と柔軟性をお客様に提供し、重要なデータをデータブリックスに取り込む際のシームレスな統合とFivetranのプラットフォームとの相互運用性を最大化します」
Granica 共同創業者兼最高経営責任者 Rahul Ponnala氏:
「Granicaでは、データの民主化とベンダーロックインからの解放を支持しています。当社のSafe Roomテクノロジーは、Unity CatalogやApache Icebergのようなオープンj標準をサポートしながら、生成AIのワークフローにおけるプライバシー、信頼性、安全性を保証します。Unity Catalogのベンダーニュートラルなアーキテクチャと堅牢なガバナンス・ソリューションは、お客様に柔軟性とデータ制御を提供するという、当社のビジョンに合致しています。当社は、このオープンなエコシステムに貢献しイノベーションを促進して、お客様が最適な組み合わせのプラットフォームでシームレスにデータが扱えるようになることを嬉しく思っています」
Immuta 最高経営責任者 Matthew Carroll氏:
「Unity Catalog内のネイティブアクセスパターンが公開されたことで、事業においてデータへのアクセスを効率化し、パフォーマンスに影響を与えることなく、大規模なガバナンスルールを適用できるようになりました。データブリックスによるコミュニティへの継続的な投資により、データ制御の構築が容易になるサービスを加速させることで、当社のお客様はより容易にガバナンスを行い、AIの時代に新たに加わる大量のデータ消費者を管理することができます」
Informatica データクラウド・ガバナンス兼クラウド・オペレーション ゼネラルマネージャー兼シニア・バイス・プレジデント Brett Roscoe氏:
「データブリックスがデータとAIのためのオープン標準としてUnity Catalogをオープンソース化することで、私たちの共通のお客様にビジネスチャンスがもたらされることを嬉しく思います。Unity Catalog OSSとInformatica のインテリジェントデータ管理クラウドを利用することで、お客様はデータエコシステムのより幅広い選択肢と柔軟性、相互運用性を得ることができます」
Langchain 最高経営責任者 Harrison Chase氏:
「データブリックスがUnity Catalogのオープンソース化を決定したことは、データとAIのコミュニティにとって喜ばしい展開です。データブリックスと提携し、Unity CatalogをLangChainと統合することで、両社共通のユーザーがUnity Catalogの機能をツールとして使用し、高度なエージェントを構築できるようになることを嬉しく思います」
NVIDIA 戦略的エンタープライズ・パートナーシップ担当バイス・プレジデント Pat Lee氏:
「エンタープライズデータは、正確な生成AIアプリケーションの開発に不可欠です。NVIDIAはパートナーエコシステムと密接に連携し、お客様が効率的で強力な開発パイプラインを構築するのに役立つ、データブリックスのUnity Catalogのようなオープンソース・オファリングをサポートしています」
OneHouse 創設者兼最高経営責任者 Vinoth Chandar氏:
「Unity Catalogのオープンソース化は、より協力的で革新的なデータエコシステムに向けた極めて重要な一歩です。この技術にアクセスできるようにすることでデータブリックスは、コミュニティ全体がデータガバナンスと管理機能の強化に貢献し、その恩恵を受けられる環境を作り出しています。この動きは、OneHouseとApache XTable(インキュベート中)のビジョンに沿ったもので、全ての人々における進歩とイノベーションを促進するオープンフォーマットの相互運用性をサポートします」
Unstructured 最高経営責任者 Brian Raymond氏:
「Unstructuredは、LLMのための主要な非構造化データETLソリューションです。Unity Catalog OSSとのパートナーシップは、データサイロを打破し、企業におけるAIおよびML開発を加速させる上で、非常に理にかなったものです。データブリックスと提携し、AIのユースケースのためにこのオープン標準を開発し、非構造化データのメタデータを標準化することで、当社のお客様が最先端のAIを活用して運用できるようになることを嬉しく思います」
本日の発表により、データブリックスはデータとAIのガバナンスをリードし続け、相互運用可能なツールのエコシステム、データとAI資産の普遍的なサポート、組み込みのセキュリティを推進していきます。
提供開始
Unity Catalog OSSは 、「Data + AI Summit」開催期間中に利用可能になります。
データブリックスについて
データブリックスはデータとAIの会社です。Comcast、Condé Nast、Grammarly、そしてFortune 500の60%以上を含む世界中の10,000以上の組織が、データ、アナリティクスおよびAIを統合し民主化するデータブリックスのデータ・インテリジェンス・プラットフォームを利用しています。米国カリフォルニア州サンフランシスコに本社を置き、世界中にオフィスを構えるデータブリックスは、レイクハウス、Apache Spark™、Delta Lake、MLflowのクリエイターによって創立されました。詳細については、ウェブサイト(日本語) をご確認ください。