社外とのセキュアなデータシェアリング — クラウド/オンプレミスデータの共有のための REST API を利用したオープンプロトコル

多くの企業が、顧客、サプライヤーなどの社外パートナーとデータやファイルをセキュアに共有する方法を探しています。近代においてはデータ共有が非常に重要になってきています。例えば、小売業者は、サプライヤーに対してリアルタイムでセールスデータを共有したいと考えるかもしれません。また、サプライヤーはリアルタイムで在庫情報を共有したいと考えるかもしれません。しかし、データ共有ソリューション・サービスが単一のベンダーに縛られているため、現在、データ共有は非常に制限されたものとなっています。このことは、データ提供者と消費者が異なるプラットフォームを用いることになり、二者間で摩擦が生じることにつながっています。

本日、我々は企業間のデータ共有をシンプルにするための新たなオープンソースプロジェクト、 Delta Sharing をローンチします。大規模データのセキュアなリアルタイムのデータ交換のためのオープンプロトコルで、製品間のセキュアなデータ共有を初めて実現します。我々は世界中のトップソフトウェアメーカー、データプロバイダのパートナーと連携して Delta Sharing を開発しています。

現在のデータ共有ソリューション・サービスが摩擦を生んでいる理由を知るために、サプライヤーのデータ分析者とデータを共有したいと考えている小売業者を考えてみましょう。小売業者はデータ共有を提供するクラウドデータウェアハウスの 1 つを利用するとします。しかし、この場合、データ分析者は自社に同じデータウェアハウスを導入するために、自社の IT、セキュリティ部門、調達部門と調整を行う必要があり、場合によっては数か月の時間を要することになります。さらに、データウェアハウスを導入した後に分析者が最初にすることは、データウェアハウスから、pandas や Tableau など現在使用しているデータサイエンスツールにデータをエクスポートすることです。

Delta Sharing を活用することで、社外にいるデータのユーザーでも、特定のプラットフォームを導入することなしに、pandas、Tableau、オープンプロトコルを実装している他の数多くのシステムを通じて、共有されたデータに直接接続できます。これにより、データにアクセスするのに要する時間を数か月から数分に短縮でき、データ提供者が多くのユーザーにデータを提供するのに要する労力を大幅に削減できます。

我々は活気のあるパートナーエコシステムと共に、Delta Sharing に取り組んでいます。

 Delta Sharing のエコシステム - Apache Spark、 Pandas、 Presto、 Trino、 Rust、 Hive、 Tableau、 Power BI、 Qlik、 Looker、Databricks、 Microsoft Azure、 Google BigQuery、 Starburst、 Dremio、 AtScale、 Immuta、Privacera、 Alation、 Collibra、 Nasdaq、 S&P、 ICE、 NYSE、 AWS、 FactSet、 Precisely、Atlassian、 Foursquare、 Sequence Bio
Delta Sharing のエコシステム

本記事では、Delta Sharing がどのように動作するのか、なぜデータ共有(データシェアリング)に関するオープンアプローチが素晴らしいものであるのかを説明します。

Delta Sharing のゴール

Delta Sharing はデータの提供者、消費者の両方が、容易に既存のデータ、ワークフローを活用できるように、4 つのゴールを念頭に置いて設計されています。

  • コピーすることなしにライブデータを共有::我々は既存のデータをリアルタイムで共有できるようにしたいと考えています。現在、企業データの多くはクラウド上のデータレイクやレイクハウスシステムに格納されています。Delta Lake はこれらに対して動作します。特に、Delta Lake、Apache Parquet フォーマットの既存データのセキュアな共有が可能です。
  • 幅広いクライアントのサポート: データの受領者は、新たなプラットフォームをインストールすることなしに、今使っているツールから直接データにアクセスできるべきです。Delta Sharing のプロトコルは、簡単にツールを直接サポートできるように設計されています。すでに多くのツールがサポートしている Parquet をベースにしていますので、コネクタの実装は容易です。
  • 強力なセキュリティ、監査、ガバナンス:プライバシーとガバナンス要件に適合するようにプロトコルは設計されています。Delta Sharing では単一のアクセスポイントを強制することで、共有データに対するアクセス権の許可、追跡、監査が可能です。
  • 大容量データセットへの対応:粒度の細かい産業データ、財務データの共有など、従来のソリューション・サービスでは対応できないようなテラバイトオーダーのデータセットをサポートする必要が出てきています。Delta Sharing は、大容量データセットを経済的かつ高い信頼性で共有できるクラウドストレージのコストと弾力性を活用しています。

Delta Sharing はどのように動作するのか?

Delta Sharing は、クラウド上のデータセットに対するアクセスをセキュアに共有するシンプルな REST (Representational state transfer) API を利用したプロトコルです。高い信頼性で大規模データセットを転送するために、S3、ADLS、GCS のような近代のクラウドストレージシステムを活用します。ここには 2 人の登場人物が存在します。データ提供者と受領者です。

データ提供者として Delta Sharing を使うことで、クラウド上のデータレイクに Delta Lake フォーマットで保存されている既存のテーブルあるいはその一部(例:パーティションの特定テーブルバージョン)を共有できます。Delta Lake テーブルは Parquet ファイルの集合体であり、必要に応じて既存の Parquet テーブルを Delta Lake に変換するのは簡単です。データ提供者は共有したいデータを決定し、Delta Sharing プロトコルを実装するシェアリングサーバーを稼働させ、受領者のアクセス権を管理します。リファレンスシェアリングサーバーをオープンソース化しました。さらに、他のベンダーがすることに倣って、Databricks ではシェアリングサーバーをホスティングしています。

データ受領者として必要なのは、プロトコルをサポートしている数多くのクライアントのどれか 1つです。すでに、pandas、Apache Spark、Rust、Python のオープンソースコネクタをリリースしています。そして、パートナーと共により多くのコネクタに取り組んでいます。

Delta Sharing は、クラウド上のデータセットに対するアクセスをセキュアに共有するシンプルな REST (Representational state transfer) API を利用したプロトコルです。高い信頼性で大規模データセットを転送するために、S3、ADLS、GCS のような近代のクラウドストレージシステムを活用します。

クラウドストレージシステムと Delta Lake の機能を活用して、実際のデータ交換・共有が効率的になるように設計されています。プロトコルは以下のように動作します。

  1. 受領者のクライアントはシェアリングサーバーに対して認証(bearer 認証などの方法)を行い、特定のテーブルに対するクエリーを依頼します。サブセットのデータを読み取れるように、データに対するフィルター(例:“country=US”)を指定することも可能です。
  2. シェアリングサーバーは、クライアントがデータに対してアクセス権を有しているかを検証し、リクエストを記録して、どのデータを返すのかを決定します。これは、実際にテーブルを構成している S3 などのクラウドストレージシステム上のデータオブジェクトの一部となります。
  3. シェアリングサーバーは、データを転送するために、クライアントが直接クラウドプロバイダから Parquet ファイルを読み取るのに使用する、短期間のみ有効な事前署名済みの URL を生成します。これによって、シェアリングサーバーを介することなしに、広い帯域での並列データ転送が可能になります。この強力な機能は、主要なクラウド全てで利用でき、大規模データセットを高速、安価、高い信頼性で共有できます。

設計面でのメリット

Delta Sharing の設計は、データ提供者、受領者両方にメリットを提供します。

  • クライアント(データ受領者)に対して、データセットの特定のサブセットに対してのみアクセス権を指定できるので、データ提供者は簡単にテーブル全体、あるいは特定バージョンのテーブル、テーブルの一部を共有できます。
  • Delta Lake の ACID トランザクションを活用することで、データ提供者はリアルタイム、かつ高い信頼性でデータを更新でき、データ受領者初音に一貫性のある状態でデータを参照できます。
  • データ受領者はデータ提供者と同じプラットフォームを持つ必要はなく、クラウドを利用している必要もありません。クラウド間で共有できるのはもちろん、クラウド、オンプレミスでも共有可能です。
  • Parquet を理解しているのであれば、Delta Sharing のプロトコルをクライアントで実装するのは容易です。オープンソースのエンジン、BI ツールにおけるプロトタイプ実装の多くで構築に要した期間は 1、2 週間でした。
  • 基盤となっているクラウドシステムを活用することで高速、安価かつ、高信頼性、並列性を保ったデータ転送が可能です。

オープンなエコシステム

上で述べたとおり、データ共有におけるオープンなアプローチを確立できたことを大変嬉しく思います。Nasdaq のようなデータ提供者の方々は口を揃えて、「異なる分析ツールを使っている社外のさまざまなお客様に、データやファイルを共有・提供することは非常に大変でした」と話しています。

「企業間でのセキュアなデータ共有、コラボレーションをシンプルなものにするオープンプロトコルのビジョン、Delta Sharing を支持します。Delta Sharing は我々がパートナーと共同作業する方法を強力にし、運用コストを低減することに加え、ユーザーが財務的戦略を立てたり洞察を得るのに適している Nasdaq の包括的なデータに対するアクセスを可能にします。」
Nasdaq 社 Head of Alternative Data
Bill Dague 氏

Delta Sharing によって、多くの人気のあるシステムが企業間における共有データに直接接続でき、あらゆるユーザーが利用できるようになり、全てのデータ受領者の抱える摩擦を低減します。Delta Sharing の標準を定義するために多くのパートナーと共に取り組んでおり、皆様の参画も期待しています。本日のローンチにおいて多くの会社様が支援の手を差し伸べてくれています。

BIツール: TableauQlik、Power BI、 Looker
アナリティクス: AtScaleDremioStarburst、Microsoft Azure、 Google BigQuery
ガバナンス: CollibraImmuta、Alation、Privacera
データプロバイダ: FactSetNasdaqPreciselySafegraph、Atlassian、AWS、Foursquare、 ICE、Qandl、 S&P、 SequenceBio

Databricks が提供する Delta Sharing

Databricks のお客様は、Delta Sharing を Unity Catalog にネイティブに統合できます。これにより、組織内外におけるデータ共有(データシェアリング)の効率化されたエクスペリエンスがもたらされます。管理者は、新たな CREATE SHARE SQL シンタックス、あるいは REST(Representational state transfer) API を用いてデータ共有を管理し、全てのアクセスを集中的に監査できるようになります。また、データ受領者は、あらゆるプラットフォームからデータの利用が可能になります。こちらに登録すると、プレビューアクセスとアップデートの最新情報をご入手いただけます。

ロードマップ

最初のバージョンの Delta Sharing がスタートしました。プロジェクト進行に伴い、ストリームや SQL ビュー、機械学習モデルなどの任意のファイルなど他のオブジェクトを共有できるように計画しています。我々はデータ共有(データシェアリング)の未来はオープンであると信じており、このアプローチを他の共有ワークフローに展開することに興奮を覚えています。

Delta Sharing を始めましょう

オープンソースの Delta Sharing のリリースを試すには、delta.io/sharing の手順に従ってください。Databricks のお客様である場合には、サービスアップデートにサインアップしてください。皆様からのフィードバックをお待ちしています!

Databricks 無料トライアル 使ってみる

ご登録

Delta Sharing についての詳細は、「データ+ AI サミット」の基調講演の動画で無料でご覧になれます。