メインコンテンツへジャンプ

Delta Sharingで実現する安全なエンドツーエンドのコラボレーション

実際の共有シナリオでは、Delta Sharing の安全なアーキテクチャ、柔軟性、適応性、およびプラットフォームやクラウドをまたいだ Unity Catalog との統合が紹介されています。
ビラル・オベイダット(Bilal Obeidat)
バヴィン・クカディア
Giselle Goicochea
Share this post

Reviewed by saki.kitaoka

現代のデジタル環境において、セキュアなデータ共有は運用効率とイノベーションに不可欠です。DatabricksとLinux Foundationは、データ、分析、AI全体でのデータ共有に対する初のオープンソースアプローチとして Delta Sharingを開発しました。Databricksは、安全なデータ交換を提供し、プラットフォーム、クラウド、地域をまたいだシームレスな共有を促進します。あらゆる規模の企業が、幅広いアプリケーションと多様なデータ形式をサポートするDelta Sharingを信頼しています。この柔軟性により、データ資産の可能性を最大限に引き出そうとする組織にとって信頼できるツールとなります。

本ブログでは、Databricks Delta Sharingのセキュリティアーキテクチャを、Databricks顧客間共有(D2D)Databricks顧客からオープン共有(D2O)、クロスクラウドデータ共有の3つの異なる共有シナリオを通じて検討します。さまざまなプラットフォームやクラウド間でのセキュアなデータ交換を通じて運用効率を向上させ、複雑さとリスクを軽減するなど、Delta Sharingを現代のデータコラボレーション戦略の一部として導入する利点を要約します。このセキュアなフレームワークはインサイトの取得時間を短縮し、迅速な意思決定を可能にする一方で、ステークホルダー間の信頼を育む堅牢なプライバシー保護を維持します。さらに、Delta Sharingの柔軟性は多様なデータ形式とアプリケーションをサポートし、進化するビジネスニーズに安全に適応することができます。各シナリオには、ソリューションの画期的な影響を強調する顧客の声が含まれています。このブログでは、データプロバイダーがDatabricksプラットフォームの管理バージョンを使用しているDatabricks Delta Sharingに焦点を当てます。

Databricks間のデータ共有(D2D)

D2Dシナリオは、Databricksエコシステム内の2つのDatabricks顧客間でのセキュアでスムーズなデータ交換の例です。Databricks管理の接続とトークン交換不要のシステムを特徴としており、シンプルさとセキュリティの両方を確保します。

D2D共有を使用すると、顧客はUnity Catalog(UC)とのネイティブ統合の利点を享受でき、共有操作に対する統一されたガバナンスとセキュリティを提供します。共有はデータセットに限らず、ボリューム、ノートブック、AIモデルを含む広範な機能を示しています。アカウント内共有用のDelta Sharingはデフォルトでオンになっており、外部共有は必要な管理レベルのアクセスで有効化された場合に利用可能です。Databricks Delta Sharingを設定するには、Unity CatalogとMetastoreが有効な少なくとも1つのDatabricksワークスペースと、管理者ロールまたはCREATE SHAREとCREATE RECIPIENTの特権が必要です(アカウント設定についてはドキュメントを参照してください)。

データアクセス

認証後のデータアクセスに関しても、Unity Catalogは重要な要素です。Unity Catalogから認証を受けると、アクセス方法が決定されます。クラウドトークンまたはプリサインドURLのいずれかで、資産タイプや共有の取り決めによって異なります。クラウドトークンの場合、プロバイダーのUCによって読み取り専用のスコープダウンされたSASトークンが発行され、それが受信者のコンピュートプレーンに転送されます。これにより、テーブルのルートディレクトリへのセキュアで限られた時間のストレージアクセスが提供されます。同様に、プリサインドURLの場合、関連するURLのリストが作成され、受信者のコンピュートプレーンに送信され、ストレージファイルへのセキュアで一時的なアクセスが提供されます。AzureのSASトークンやAWSのプリサインドURLなどの異なるクラウドサービスを使用する際にセキュリティ機能を戦略的に使用することで、認可された個人のみが地域やクラウドを越えてデータにセキュアにアクセスできるようになります。さらに、これらのやり取りは受信者とプロバイダーのコントロールプレーンに限定され、外部のエージェントによって引き起こされることはできないため、外部からの侵害から保護されます。この方法論はシステムの適応性を強調しており、データ共有が柔軟でセキュアであり、多様なビジネスニーズに巧みに対応できることを保証します。

Delta Sharing : データアクセス

Coastal Community Bankは、そのパートナーネットワークからの厳格で挑戦的なデータ共有、コンプライアンス、およびセキュリティの要件を満たすためにDelta Sharingを選択しました。Coastalは、最新のデータプラットフォームを開発するためにCavallo Technologiesを選びました。Cavallo Technologiesの社長、Rob Cavallo氏は、Coastalが現在および将来にわたって柔軟なソリューションを必要としていると説明します。詳細は「Coastal Community Bank 導入事例」をお読みください

ある意味で、Coastal はパラドックスを求めていました:簡単なコラボレーションを可能にしながらも、消費者金融データの最高のセキュリティ基準を満たすことです。今日のワークロードに対してプラットフォームが高性能でコスト効率が高いことを確保する一方で、まだ想像されていない将来のユースケースにも対応できる柔軟性が重要です。最終的に、Databricks Data Intelligence Platformは、それを可能にする唯一のプラットフォームでした。
— Cavallo Technologies社長、Rob Cavallo氏

テーブルを超えたセキュアなデータ共有

Delta Sharingは、テーブルデータだけでなく、ボリューム、ノートブック、AIモデルなどの非テーブルデータ資産も含む包括的なデータコラボレーションアプローチを採用しています。これらの資産タイプは現在、D2D(Databricks顧客間)共有フレームワークでのみサポートされており、コラボレーションエコシステムを強化します。AIモデルはボリュームと同様に共有され、ノートブックは独自の共有メカニズムを持ちます。ノートブックは、プリサインドURLを通じて受信者がプレビューでき、ポップアップウィンドウでHTMLとしてコンテンツを表示します。より深い統合のために、ノートブックはbase64エンコードとAPIコールを使用して受信者の環境にインポートすることもできます。

AIモデルの共有は、プロバイダーのUC(Unity Catalog)によって発行される読み取り専用のスコープダウンされたSASトークンを生成することで行われ、それが受信者のコンピュートプレーンに転送されます。このアプローチは、モデルの余分なコピーを作成せずに、安全で効率的なアクセスを提供します。モデルは受信者のUCのモデルレジストリに一度だけコピーされ、その後、複数の地域に展開して、推論プロセスを最適化し、遅延を減らしてエンドユーザーに近い地域データセンターを活用することで、パフォーマンスを向上させます。Delta Sharingを使用した共有ボリュームおよびAIモデルの発見、アクセス、利用は、データタイプごとに適合したアプローチを示し、セキュアで多用途のデータ共有およびコラボレーションプラットフォームを促進します。

Databricksからオープンデータ共有(D2O)

オープン共有シナリオへの移行では、D2OはDatabricks顧客がDatabricks外部のサードパーティユーザーとデータを共有するための厳格なセキュリティプロトコルを維持します。D2Oは、pandas、Tableau、Apache Spark、RustなどのシステムをサポートするDelta Sharingコネクタを使用して、特定のコンピュートプラットフォームを必要とせずに、受信者が直接共有データに接続できるようにします。

Databricksでオープン受信者を作成すると、一度だけ有効なセキュアなアクティベーションURLが生成され、受信者はDelta Sharingエンドポイントアドレスとトークンを含むクレデンシャルファイルをダウンロードできます。セキュリティ侵害が発生した場合、プロバイダーは受信者のクレデンシャルを変更したり、読み取り権限を取り消したりすることで、即座に対応することができます。

データアクセスワークフロー:受信者が前述のコネクタのいずれかを使用して共有テーブルをクエリすると、Delta Sharingはクレデンシャルファイルのトークンを使用して受信者を検証し、データにアクセスするためのプリサインドURLを提供します。このアプローチは、さまざまなオープンソースコネクタとの互換性を確保し、共有資産の整合性とセキュリティを保護します。(データの共有とアクセスの詳細については、こちらを参照してください。)

Cox Automotive Europe(Cox Automotiveの一部)は、世界最大の自動車サービス組織であり、Delta Sharingを使用して、企業データサービスチーム外で共有されるデータを中央管理および監査し、堅牢なセキュリティとガバナンスを確保しています。Cox Automotive 導入事例を読む

Delta Sharingは、データをコピーや複製することなく、事業部門や子会社と安全にデータを共有することを容易にします。受信者が私たちのワークスペースにアイデンティティを持っていなくてもデータを共有できるのです。
— Cox Automotiveのリードデータエンジニア、Robert Hamlet氏

クロスクラウドデータ共有

企業は、さまざまなクラウドプラットフォーム間で多様な機能をサポートし、パートナーシップを促進し、または買収後に他の組織からデータを統合する必要性から、クロスクラウド戦略をますます採用しています。このマルチクラウド環境への移行は、内部および外部の両方でシームレスかつ安全な共有を可能にするために、Delta Sharingのような堅牢なソリューションを実装する重要性を強調しています。クロスクラウド戦略を実施することは、クライアントが運用の連続性を維持し、イノベーションを促進し、相互接続されたデジタルエコシステム内で成長を推進するためにしばしば不可欠です。また、各クラウドサービスの独自の強みを活用できるようにします。

クロスクラウド戦略を採用する多くのクライアントにとって、マルチクラウド環境をシームレスにサポートするDelta Sharingのオープンなクロスプラットフォーム共有機能は、明確な差別化要因および利点です。Delta Sharingは、単一のクラウド内での内部データ共有でも、複数のクラウドプラットフォーム間での外部データ共有でも同様に効果的であり、両方のシナリオでセキュアで効率的なデータ交換プロセスを保証します。Databricksは、多くの顧客から、マルチクラウド環境内でのデータ共有ニーズと、Delta Sharingがクラウドエコシステム全体での相互運用性とセキュリティをどのように促進するかについて聞いています。

これらのDatabricksの顧客の1つに、国際的な取引所組織および市場インフラプロバイダーであるDeutsche Börseがあります。Delta Sharingを導入し、顧客とオープンに共有およびコラボレーションできるようにしたところ、ビジネスへの影響は劇的でした。

細かいアクセスコントロール、最高のセキュリティ基準、およびプライバシー保証を備えたセキュアなデータ共有を可能にするプラットフォームを持つことで、新しい可能性が開かれます。これまでなら、『残念ながら、クライアントはデータやモデルを私たちと共有したくない、または機密保持の理由でより詳細なデータやモデルを共有したくない』と言っていたところが、今ではカスタマイズされたソリューションについての話し合いができるようになりました。
— Jan Stiebing氏、Deutsche Börse、ビジネス戦略およびM&A責任者

この顧客事例や他の多くの事例において、Delta Sharingは、かつては克服不可能と考えられていたデータ共有とコラボレーションのギャップを埋めることができ、同時に最高水準のセキュリティとプライバシーを維持します。Deutsche Börseは、Databricks Marketplaceでいくつかの市場データリスティングも提供しています。

ネットワークおよびストレージ構成

Delta Sharingは、さまざまなクラウド環境で安全かつシームレスなデータ共有を可能にし、クラウドのネイティブなストレージセキュリティアーキテクチャとシームレスに統合します。このアプローチは、既存のセキュリティフレームワークに大きな変更を加えることなく実現されます。この方法は、Azure、AWS、GCPなどのクラウドプラットフォームでDatabricksを利用する組織向けに設計されており、Unity Catalogの要件に適合しています。Databricks Data Intelligence Platformは、ADLS Gen2、S3、GCSなどのクラウドストレージソリューションを通じてデータ共有をサポートし、セキュリティ強化のためにプライベート通信チャンネルやIPアドレスのホワイトリスト化を強調しています。

以下に概説するDelta Sharingのネットワークおよびストレージ構成は、クラウド内およびクロスクラウドの両方のシナリオで機能します。クラウド内共有は、プライベートエンドポイント、ストレージファイアウォール、およびネットワークゲートウェイを使用して、同一クラウドエコシステム内での安全なデータ交換を促進し、パブリックアクセスを許可しません。クロスクラウド共有シナリオでは、Delta SharingはNATゲートウェイのイーグレスIPを活用し、サイト間VPNや専用リンクなどの既存のクロスクラウドプライベート接続をサポートして、異なるクラウドプラットフォームおよびオンプレミスネットワーク間での安全なデータアクセスを可能にします。この包括的かつセキュアなアプローチにより、広範なネットワークインフラストラクチャがDelta Sharingを効率的に活用できるようになり、柔軟性とセキュリティの両方を促進します。

ネットワークとストレージの構成

上記の図は、クロスクラウドネットワーク構成の例を示しています。

データフィルタリング

Delta Sharingでは、柔軟かつ安全なアクセスを提供するためにデータフィルタリングが重要であり、以下の2つの主要な方法があります。

  • パーティションフィルタリング:受信者の属性に一致する特定のテーブルパーティションを共有することを可能にする、パラメータ化されたパーティション共有として知られる方法です。この戦略により、データプロバイダーは必要なデータ部分を柔軟に共有でき、制御されたアクセスを促進します。
  • ダイナミックビュー:current_recipientなどの動的関数を介して任意のデータサブセットを受信者と共有することを可能にし、細かいデータアクセス制御と管理性を向上させます。

特定の受信者属性に基づくアクセス制限を許可し、データが意図された受信者と適切なコンテキストでのみ共有されるようにします。これらのアプローチは、Delta Sharingのセキュリティと柔軟性を向上させ、受信者のニーズに合わせたデータアクセスを可能にします。

セキュリティ、柔軟性、シームレスな統合を実現するDelta Sharing

結論として、Delta SharingはDatabricks Data Intelligence Platformの重要なコンポーネントであり、セキュアで柔軟なクロスプラットフォームデータ共有機能を備え、現代のデータ戦略をサポートします。オープンソースのコネクタを介して他のプラットフォームをサポートすることに加え、Delta Sharingは構造化データおよび非構造化データ、さらにAIモデルを共有することを可能にします。これらすべての機能は、Delta Sharingを他のデータ交換プラットフォームと差別化する要素です。その結果、Delta Sharingはさまざまな業界のクライアントから広く信頼されており、顧客の声として運用効率とイノベーションに対する大きな影響が反映されています。データ共有の状況が進化し続ける中、Delta Sharingは将来を見据えて構築されており、セキュリティ、柔軟性、および多様なデータ共有エコシステム間のシームレスな統合を優先しています。この揺るぎないコミットメントにより、Delta Sharingは、企業がデジタル目標を達成するためのデータの力を活用する上で不可欠な資産となります。

詳細なリソースと情報

Delta Sharingを組織内で実装する方法について詳しくは、以下の最新リソースをご覧ください。新しいeBookや関連ブログも含まれています。また、Delta Sharingのドキュメントに深く入り込むこともできます。

すでにDelta Sharingの顧客である場合は、質問やフィードバックを提供するために datasharing @databricks.comに連絡することもできます。

Databricks 無料トライアル

関連記事

Delta Sharingによるグローバル・データ・コラボレーションの構築

今日の相互接続されたデジタル環境では、組織やプラットフォームを超えたデータ共有とコラボレーションが、現代のビジネス運営に不可欠です。 革新的なオープンデータ共有プロトコルであるDelta Sharingは、ベンダーやデータ形式の制約を受けることなく、セキュリティとスケーラビリティを優先し、組織が多様なプラットフォーム間でデータを安全に共有し、アクセスできるようにします。 このブログでは、特定のデータ共有シナリオに合わせたアーキテクチャガイダンスを検討することで、Delta Sharing内のデータレプリケーションオプションを紹介します。 多くのDelta Sharingのお客様との経験から得た洞察をもとに、具体的なデータレプリケーションの選択肢を提供することで、イグレスコストを削減し、パフォーマンスを向上させることを目標としています。 ライブ共有は多くの地域間データ共有シナリオに適していますが、データセット全体を複製し、各地域の複製用にデータ更新プロセスを確立した方がコスト効率が良い場合もあります。 Delta

Cloudflare R2統合によるDelta Sharingのパブリックプレビューを発表

CloudflareのシニアプロダクトマネージャーPhillip JonesとシステムエンジニアHarshal Brahmbhattに感謝します。 あらゆる業界の組織は、クラウドや地域に関係なく、単一で統一された方法でデータやAI資産を共有したいと考えています。 しかし、多くの企業が顧客、チーム、パートナーとのデータ共有に苦戦しており、プラットフォームの互換性の問題や制限、高いデータ送信コスト、ガバナンスとセキュリティの欠如に直面しています。 Databricks と Linux Foundation は、安全なデータ共有のための最初のオープンなアプローチとして Delta Sharing を開発しました。 お客様は、レプリケーションを必要とせず、プラットフォーム、クラウド、地域間で簡単かつ安全にデータを共有するために、Delta Sharingを使用しています。 本日、Cloudflare R2との Delta Sharing のパブリックプレビューを発表し、お客様がクラウドやリージョンを越えてデータを共有し、

DatabricksにAIモデルの共有機能が新登場!

本日、 Databricks Delta Sharingと Databricks Marketplaceの 両方でAIモデルの共有が可能になったことを発表できることを嬉しく思います。 Delta Sharingを使用すると、クラウド、プラットフォーム、地域を越えて、組織内または外部でAIモデルを安全に共有し、提供することができます。 さらに、Databricks Marketplaceは、 John Snow Labsから 医療専門家をサポートするための60の新しい業界別AIモデルをリリースしました。 AIモデルの共有はパブリックプレビューで、Delta Sharingとマーケットプレイスで利用可能です。 Databricks Data Intelligence Platformは、モデル提供、AIトレーニング、モデル監視を含むエンドツーエンドの機械学習機能により、モデルの検索と共有を行う新しい機能をサポートします。 ジェネレーティブAIで高まるシェアリング需要に対応 ここ数カ月、DatabricksはDatab
プラットフォームブログ一覧へ