メインコンテンツへジャンプ

Unity Catalogのオープンソース化を発表します!

業界唯一のデータとAIのユニバーサルカタログを作成
Share this post

Translation Review by saki.kitaoka

Unity Catalogのオープンソース化を発表できることを非常に嬉しく思います。

これは、クラウド、データ形式、データプラットフォーム全体でデータとAIのガバナンスを行う業界初のオープンソースカタログです。ここでは、Unity Catalogビジョンの最も重要な柱をご紹介します:

  • オープンソースのAPIと実装: OpenAPI仕様に基づいて構築され、Apache 2.0ライセンスのもとでオープンソースのサーバー実装があります。Apache HiveのメタストアAPIやApache IcebergのRESTカタログAPIとも互換性があります。
  • マルチフォーマットサポート: 拡張性があり、Delta Lake、UniForm経由のApache Iceberg、Apache Parquet、CSVなど、すべての形式をサポートします。
  • マルチエンジンサポート: オープンAPIを使用して、Unityにカタログされたデータはほぼすべてのコンピュートエンジンで読み取ることができます。
  • マルチモーダル: テーブル、ファイル、関数、AIモデルなど、すべてのデータとAI資産をサポートします。
  • 活発なエコシステム: このプロジェクトはコミュニティの取り組みであり、Amazon Web Services、Microsoft Azure、Google Cloud、Nvidia、Salesforce、DuckDB、LangChain、dbt Labs、Fivetran、Confluent、Unstructured、Onehouse、Immuta、Informaticaなど、多くのサポートを受けていることを非常に嬉しく思います。

このプロジェクトは、私たちのUnityビジョンをオープンソースに取り込む旅の第一歩として、GitHubで公開されています。Unity Catalogは、人工知能(AI)とデータにおけるオープンソースのイノベーションを支援するLinux Foundationの傘下団体であるLF AI & Dataにホストされており、今後もオープンソースコミュニティと協力してこのビジョンを実現していくことを楽しみにしています。

なぜオープンソースなのか?

Unity Catalogの広範な採用に伴い、なぜオープンソース化するのか、そしてなぜ今なのかという疑問が浮かぶかもしれません。それは、企業が今日だけでなく今後数十年にわたるイノベーションのためにデータとAIアプリケーションのためのオープンな基盤を必要としていることを常に聞いてきたからです。

残念ながら、今日のほとんどのデータプラットフォームは囲い込みの状態にあります。多くのクラウドデータウェアハウスは、オープン形式ではない「ネイティブテーブル」を使用しています。他のプラットフォームでは、外部エンジンからデータを読み取る場合でも常時オンのコンピュートに対して料金を請求します。そして、多くのプラットフォームは、サポートするデータ形式とクライアントを制限しています。

これにより、データが分断され、資産全体でガバナンスが断片化します。タブデータの一貫したインターフェースがないだけでなく、AI資産でも、組織は複数の分断されたソリューションを統合する必要があります。Databricksはすでに、すべてのテーブルがデフォルトでオープン形式であり、昨年UniFormを使用してDeltaテーブルをIcebergクライアントに開放したことで、業界で強い姿勢を示しました。Unity Catalogをオープンソース化することで、現在および将来のワークロードに対するオープンな基盤を企業に提供します。

なぜマルチモーダルなデータとAIカタログが必要なのか?

急速に進歩するAIの時代において、すべての企業はデータとAI資産を一緒にガバナンスする必要があることを認識しています。非構造化データの管理や、エージェント駆動型LLMアプリケーションのためのツールのカタログ作成などです。Databricksでは、データとAIインフラの統合の必要性を早期に認識し、これら二つの世界を一貫したガバナンスモデルにまとめるために3年前にUnity Catalogを立ち上げました。今日では、次のような統一ガバナンスの利点を享受する何千もの顧客がいます:

  • テーブル、非構造化データ、AI資産を整理および共有するための単一の名前空間
  • すべてのデータおよびAIアクティビティの集中管理ログ
  • データとAIワークロード全体の統一された系譜
  • オープンソースのDelta Sharingプロトコルを介した組織間のコラボレーション

生成的AIエージェントのためのツールカタログの概念など、最新のAIのリリースもこの統一ガバナンスモデルに適合するように設計されています。

Unity Catalog 0.1リリース

本日、オープンソース版Unity Catalogのバージョン0.1をリリースします。一部のAPIや機能はまだ進化中ですが、このリリースではUnity Catalogのいくつかの重要な機能を紹介します:

  • テーブル、ボリューム(非構造化データ)、AIツール/機能を一元管理できます。
  • テーブルは、Delta Lake、UniForm経由のIceberg、Parquet、CSV、JSONなど、複数の形式に対応しています。
  • Unity Catalogは、IcebergエンジンエコシステムからのアクセスのためにIceberg REST Catalog APIを実装しており、Tabularの専門知識を活用しています。
  • APIは、テーブルやボリュームの基盤となるクラウドストレージへのクライアントアクセスを制限するためのクレデンシャル発行をサポートし、カタログサーバーでガバナンスを集中管理します。

Unity カタログのブログ画像。

Databricksの顧客にとってこれが意味すること

すでにDatabricksをご利用のお客様は、特別な変更を行う必要はありません。既存のUnity Catalogの導入では、同じオープンAPIを実装しており、外部クライアントが管理テーブルおよび外部テーブル、ボリューム、機能にアクセスできるようになっています。これにより、既存のアクセス制御が適用された状態で、ホストされたUnity Catalogからデータにアクセスできます。この変更は、単により多くのクライアントが既存のカタログと連携することを意味しています。

Unity REST APIは、パートナーやオープンソースコミュニティが強力な統合を構築することを可能にし、顧客がさまざまなアプリケーションからテーブル、非構造化データ、AIツール/機能を扱うことができるようにします。外部アクセス料金なしでの利用が可能です。

「AT&Tは、自社のデータをプラットフォームと相互運用可能にすることに取り組んでいます。Unity Catalogのオープンソース化の発表により、Databricksがオープンスタンダードを通じてレイクハウスのガバナンスとメタデータ管理を実現する一歩を踏み出したことに励まされています。データおよびAI資産と相互運用可能なツールを、一貫したガバナンスのもとで柔軟に活用できることは、AT&Tのデータプラットフォーム戦略の核心です。」

— Matt Dugan 氏 (AT&T データプラットフォーム担当バイス プレジデント)

 

「Nasdaqは、包括的なデータ管理戦略の一環としてDatabricksのUnity Catalogを活用していることを誇りに思います。DatabricksがUnity Catalogをオープンソース化する決定を下したことにより、データのサイロを解消するためのソリューションが提供されます。これにより、プラットフォームのさらなる拡張、ガバナンスの強化、データアプリケーションのモダナイズを進め、お客様に一層の価値を提供していくことを楽しみにしています。」

— Lenny Rosenfeld氏、Nasdaq、Capital Access Platforms担当バイスプレジデント

 

「Rivianでは、Databricksプラットフォームの導入により、次世代EAV(電気自動車)の構築にデータとAIを活用できるようになりました。DatabricksがUnity Catalogをオープンソース化し、オープンAPIをリリースすることで、ベンダーロックインの心配なくデータ環境全体での相互運用性を実現できることに興奮しています。構造化データおよび非構造化データ、機械学習モデル、ジェネレーティブAIツールをすべてサポートするという点も相まって、Unity Catalogを標準化する決定は容易でした。」

— リビアンの AI プラットフォーム担当ディレクター、ジェイソン・シベリック氏

 

オープンソースエコシステム

今後数ヶ月にわたり、主要なクラウドプロバイダー、データおよびAIプラットフォーム、コンピュートエンジンと提携し、Unity Catalogの標準を推進することに興奮しています。これには、AI、データ分析、非構造化データ、ガバナンスの分野における主要なソフトウェアベンダーやオープンソースプロジェクトが含まれ、これらのベンダーはUnity CatalogのオープンソースサーバーおよびDatabricksに簡単に接続できるようになります。

Unity Catalog - オープンで相互運用可能

 


「AWSは、DatabricksによるUnity Catalogのオープンソース化を歓迎します。AWSは、顧客に選択肢と相互運用性を提供するオープンソースソリューションについて、業界と協力して取り組むことを約束します。」

— Chris Grusz, Managing Director of Technology Partnerships, AWS

 

「Microsoftはオープンソースコミュニティへの貢献と顧客に選択肢を提供することに取り組んでいます。Databricksは長年にわたる戦略的パートナーであり、Unity Catalogのオープンソース化を非常に喜ばしく思います。広範な業界の参加による真のオープンスタンダードが、顧客にとって最善であると信じています。Databricksとの協力は、データとAIのワークロードにおいてMicrosoft Azureを最良の選択肢としてさらに高め続けています。」

— Jessica Hawk, CVP Data, AI and Digital Applications, Microsoft  

 

「Googleは、顧客がデータの価値を最大限に引き出せるようにする、オープンで柔軟なソリューションに取り組んでいます。DatabricksがUnity Catalogの標準をデータとAIのためにオープン化する戦略は、私たちの戦略と非常に良く一致しています。」

— Ritika Suri, Director, Data and AI Technology Partnerships, Google Cloud

今後のロードマップ

これはUnity Catalogオープンソースプロジェクトの出発点に過ぎません。Unity Catalogは、数千の顧客に提供されており、何年ものエンジニアリングの成果です。そのため、この機能を段階的にオープンソースプロジェクトに移行していきます。まずはアクセスとクライアントの相互運用性を優先しています。

今後数ヶ月で、以下を含むデータとAIワークロードに重要なAPIのサポートを強化していきます:

  • フォーマットに依存しないテーブル書き込みAPI
  • ビュー
  • Delta Sharing
  • モデル(MLflowとの統合)
  • リモート関数
  • アクセス制御API
  • その他多数

今すぐ始めましょう!

unitycatalog.ioでUnity Catalogオープンソースコミュニティに参加できます。Databricksの顧客の皆様は、Unity Catalogと統合するデータおよびAIツールの急速に進化するエコシステムにご期待ください。


「Salesforce Data Cloudは、Apache ParquetとApache Icebergを使用したオープンスタンダードに基づいて構築されています。私たちのゼロコピーイノベーションにより、顧客はデータを活用し、洞察を引き出し、Customer 360全体でアクションを調整することができます。DatabricksがUniFormおよびUnity Catalogを通じてApache Icebergを採用することにより、Delta LakeとIceberg間の重要な相互運用性の課題が解決されます。Databricksが私たちのゼロコピー・パートナーネットワークの一員となり、構造化データ、非構造化データ、AIモデルにおいて新しいオープンUnity Catalogとともに共同でイノベーションを推進し、顧客に素晴らしい価値を提供できることを楽しみにしています。」

— Ravi Loganathan, Executive Vice President of Software Engineering, Salesforce

 

「企業のデータは、正確な生成AIアプリケーションを開発するために不可欠です。NVIDIAは、パートナーエコシステムと密接に連携し、Unity Catalogのようなオープンソースの提供をサポートしています。これにより、顧客が効率的で強力な開発パイプラインを整備する手助けができます。」

— Pat Lee, VP of Strategic Enterprise Partnerships, NVIDIA

 

「Delta KernelはDuckDB Delta Extensionの構築を非常に簡単にし、DuckDBからDelta Lakeに容易にアクセスできるようにしました。Databricksと共同でDelta KernelおよびデータとAIのためのUnity Catalogオープン標準を推進できることを非常に嬉しく思います。このコラボレーションは、オープンソースのイノベーションとオープンデータレイクハウスの発展における重要な一歩を示しています。」

— Hannes Mühleisen, CEO, DuckDB Labs

 

「DatabricksがUnity Catalogをオープンソース化する決定は、データとAIコミュニティにとって非常にエキサイティングな展開です。Databricksと協力してUnity CatalogをLangChainと統合することで、共有ユーザーがUnity Catalogの機能をツールとして使用して高度なエージェントを構築できるようになります。」

— Harrison Chase, CEO & Founder, LangChain

 

「UnstructuredはLLM向けのリーディング非構造化データETLソリューションであり、組織がデータをRAWからRAG対応に変換する手助けをしています。Unity Catalogとの統合は、データサイロを解消し、企業内のAI/ML開発を加速するための理にかなったものです。Databricksと協力して、AIユースケース向けのオープンスタンダードを開発し、非構造化データのメタデータを標準化することで、顧客がAIの最先端で運営できるようにすることに興奮しています。」

— Brian Raymond, CEO & Founder, UnstructuredIO

 

「Eventualでは、Daftというマルチモーダルデータ向けのリーディングオープンソース分散クエリエンジンを構築しました。タブデータと非構造化データの計算を統一するだけでは不十分であり、マルチモーダルカタログがGenAIデータレイクハウスの構築に不可欠だと考えています。Databricksや他のAIイノベーターと協力して、現代のデータ+AIワークロード向けのUnity Catalogオープンスタンダードを開発することに興奮しています。」

— Sammy Sidhu, CEO & Founder, Eventual Computing

 

「Granicaではデータの民主化とベンダーロックインからの解放を推進しています。私たちのSafe Room技術は、生成AIワークフローにおいてプライバシー、信頼、安全を確保しながら、Unity Catalog、Delta Lake、Apache Icebergのようなオープンスタンダードをサポートします。Unity Catalogのベンダーニュートラルなアーキテクチャと強力なガバナンスソリューションは、顧客に柔軟性とデータのコントロールを提供するという私たちのビジョンに一致しています。このオープンエコシステムに貢献し、イノベーションを推進し、顧客が最先端のプラットフォームでデータをシームレスに操作できるようにすることに興奮しています。」

— Rahul Ponnala, CEO & Co-Founder, Granica

 

「Unity Catalogのオープンソース化は、より協力的で革新的なデータエコシステムへの重要な一歩です。この技術をアクセス可能にすることで、Databricksは強化されたデータガバナンスと管理機能を提供し、コミュニティ全体が貢献し利益を得ることができる環境を育んでいます。この動きは、すべての人々の進歩と革新を促進するオープンフォーマットの相互運用性をサポートするという、OnehouseとApache XTable(インキュベーション中)のビジョンに一致しています。」

— Vinoth Chandar, CEO & Co-Founder, Onehouse

 

「Confluentの使命はデータを動かし、組織がどこでもデータを活用できるようにすることです。DatabricksがUnity Catalogをオープンソース化し、オープンデータエコシステムに大きな貢献をすることを嬉しく思います。Confluent CloudのTableflowは、データストリームをワンクリックでIcebergテーブルに変換することで、リアルタイムデータをデータレイクに簡単に届けることができます。業界をリードするストリーミング機能とDatabricksの強力なデータ管理ソリューションを組み合わせることで、顧客はデータをこれまで以上に効果的に活用できるようになります。」

— Shaun Clowes, CPO, Confluent

 

「Databricksとdbt Cloudの共同作業により、ユーザーはデータサイロを解消し、Delta LakeでETLを簡素化してTCOを低減し、Unity Catalogでガバナンスを統一することができます。Unity CatalogとオープンAPIのサポートを発表できることを嬉しく思います。このパートナーシップは、統一されたデータ体験を提供し、コミュニティがより優れた洞察を得て、イノベーションを推進できるようにすることへの私たちのコミットメントを強調しています。」

— Mark Porter, CTO, dbt Labs

 

「DatabricksがUnity CatalogをオープンソースのデータおよびAIの標準として発表したことを非常に嬉しく思います。この動きにより、私たちの顧客はデータエコシステムにおいてより多くの選択肢と柔軟性を享受できるようになり、重要なデータをDatabricksに取り込む際にFivetranのプラットフォームと最大限の相互運用性が確保されます。」

— Anjan Kundavaram, CPO, Fivetran

 

「Unity Catalog内のネイティブアクセスパターンの公開により、当社のビジネスはデータへのアクセスを効率化し、ガバナンスルールを大規模に適用する方法が変わりました。性能への影響はありません。Databricksがデータコントロールの構築を容易にするためのサービスを加速するためにコミュニティに投資し続けることで、顧客はAI時代における新しいデータ消費者の大量導入を管理しやすくなります。」

— Matthew Carroll, CEO, Immuta

 

「DatabricksがUnity Catalogをオープンスタンダードとしてオープンソース化することで、共同顧客にとって大きな機会が生まれることを嬉しく思います。Unity CatalogとInformaticaのインテリジェントデータ管理クラウドを組み合わせることで、顧客はデータエコシステムにおいてより多くの選択肢、柔軟性、相互運用性を享受できるようになります。」

— Brett Roscoe, GM and SVP Cloud Data Governance and Cloud Operations, Informatica

Databricks 無料トライアル

関連記事

Unity Catalog ガバナンスの実際の動作:モニタリング、レポーティング、リネージ

Databricks Unity Catalog(UC)は、クラウドやデータプラットフォームにわたる企業のすべてのデータとAI資産に対して、単一の統合ガバナンスソリューションを提供します。 このブログでは、 Unity Catalog Governance Value Levers(ガバナンス・バリュー・レバー )をより深く掘り下げ、包括的なデータとAIのモニタリング、レポーティング、リネージを通じて、具体的にどのようにポジティブなビジネス成果を実現しているかを紹介します。 従来の非統合ガバナンスに伴う全体的な課題 Unity Catalog Governance Value Levers ブログでは、情報セキュリティ、アクセス制御、利用監視、ガードレールの制定、データ資産からの「唯一の信頼できる情報源」の洞察の取得など、ガバナンスの組織的重要性の「理由」について議論しました。 Databricks UCがなければ、従来のガバナンスソリューションではもはやニーズに対応できません。 議論された主な課題には、複数のベ

Unity Catalog ボリュームの一般提供を開始しました!

本日 、 Unity Catalog ボリューム が AWS、Azure、GCPで一般利用可能に なったことを発表 します。 Unity Catalog は 、 Databricks Data Intelligence Platformにネイティブに組み込まれた、データおよびAI向けの統合ガバナンスソリューションを提供 します。 Unity Catalog ボリュームを使用することで、データおよびAIチームは、表データやMLモデルだけでなく、 非構造化データ、半構造化データ、構造化データなど、あらゆる種類のデータのカタログ化、セキュア化、管理、共有、リネージ追跡を一元的に行うことができます。 このブログでは、Unity...

Iceberg との互換性を実現する Delta Lake Universal Format (UniForm) が GA に

現在一般提供されている Delta Lake UniForm により、顧客は Iceberg エコシステム内のツールに接続する際に、Delta Lake の業界をリードする価格性能のメリットを享受できるようになります。
プラットフォームブログ一覧へ