メインコンテンツへジャンプ

Cloudflare R2統合によるDelta Sharingのパブリックプレビューを発表

クラウド間でのデータ共有にかかるコストと複雑さを最小化
ティエンイ・ホアン
ジゼル・ゴイコチャ
フィリップ・ジョーンズ
ハーシャル・ブラムバット
Share this post

CloudflareのシニアプロダクトマネージャーPhillip JonesとシステムエンジニアHarshal Brahmbhattに感謝します。

 

あらゆる業界の組織は、クラウドや地域に関係なく、単一で統一された方法でデータやAI資産を共有したいと考えています。 しかし、多くの企業が顧客、チーム、パートナーとのデータ共有に苦戦しており、プラットフォームの互換性の問題や制限、高いデータ送信コスト、ガバナンスとセキュリティの欠如に直面しています。 Databricks と Linux Foundation は、安全なデータ共有のための最初のオープンなアプローチとして Delta Sharing を開発しました。 お客様は、レプリケーションを必要とせず、プラットフォーム、クラウド、地域間で簡単かつ安全にデータを共有するために、Delta Sharingを使用しています。

本日、Cloudflare R2とのDelta Sharingのパブリックプレビューを発表し、お客様がクラウドやリージョンを越えてデータを共有し、データ送信コストを削減できるよう支援します。 Databricksは現在、Cloudflare R2(Cloudflareのゼロエグレスの分散オブジェクトストレージ製品)のDelta Sharingをサポートしています。 両社のお客様は、地域間の高額なレプリケーションやベンダーのロックインなしにこの利点を利用できるようになりました。

Cloudflareとの戦略的パートナーシップ

DatabricksはCloudflareと提携し、企業がクラウドや地域に関係なく、顧客やパートナーと統一された単一の方法でデータを共有できるよう支援します。 Cloudflare R2はCloudflareが提供するゼロエグレスの分散ストレージで、お客様はセキュリティとプライバシーを損なうことなく、最新のデータセットをパートナー、サプライヤー、事業部門と共有することができます。

Delta SharingとCloudflare R2を使用することで、お客様はデータとAI(ライブデータセット、モデル、ノートブック)をどこに移動して使用するかをコントロールできるようになり、レプリケーションの必要なく、データ送信コストがゼロで、ベンダーロックインがなく、セキュリティとガバナンスに妥協することなく、プラットフォーム、クラウド、地域を越えて最新のものを共有することができます。

Cloudflareの共同設立者兼CEOであるマシュー・プリンス(Matthew Prince)氏は、このパートナーシップの価値について、次のように説明しています。

"Cloudflareの巨大なグローバルネットワークとゼロエグレスストレージ、そしてDatabricksの強力な共有・処理機能を組み合わせることで、両社の顧客は世界中で最も速く、最も安全で、最も手頃な価格のデータ共有機能を利用できるようになります。" - マシュー・プリンス、CEO& クラウドフレア共同設立者

Databricksの共同創業者兼CTOであるMatei Zaharia氏は、Cloudflareとの提携について次のように述べています。

"Delta Sharingは、多様なコンピューティングプラットフォーム、クラウド、地域間でデータを共有するための初のオープンプロトコルを提供します。 私たちは、これがオープンインターチェンジを前進させ、すべてのお客様がより簡単にコラボレーションできるようになることに興奮しています。" - マテイ・ザハリア、Databricks共同設立者兼CTO

Allium、Delta SharingとCloudflare R2を使用して年間最大64.5万ドルを節約

この15年間で、金融業界はブロックチェーン技術の導入と、業界を超えた暗号通貨の利用によって変貌を遂げました。 この進化により、投資家やトレーダーが重要なリアルタイムの洞察を得るために利用できるパブリックブロックチェーンからの取引データが増え続けています。

AlliumはDatabricksの顧客で、高速かつ正確なブロックチェーンデータを備えたシンプルなデータプラットフォームを提供しています。 同社は、金融機関から暗号ネイティブ企業まで、さまざまな顧客がデータのパワーを最大限に引き出せるよう支援しています。 アリウムは、専用のデータインフラと、マネージドブロックチェーンデータベース、エンリッチドデータスキーマ、リアルタイム通知機能などの製品を提供しています。 同社はこの分野のリーダーであり、EVMやビットコインを含む15のブロックチェーン、100以上のスキーマ、250TB以上のデータサイズを提供し、トレーダーの会計や監査からNFTマーケットプレイスのウォッシュトレードフィルタリングまで、あらゆる種類の暗号アプリケーションを強化しています。 アリウムは、顧客がどこにいても、そのデータ環境に対応します。その結果、前四半期には月間1PBを超えるデータ転送が行われ、ETFの楽観論に後押しされた最近の暗号回復を受けて、この転送量は急増し続けています。

データ転送量の大幅な増加はアリウムのビジネスの急成長に貢献しましたが、同時に、顧客のニーズを満たすコスト効率の高いデータストレージと共有ソリューションをいかに構築するかという、同社の収益にとって大きな課題も加わりました。 具体的には、クラウドや地域を問わず、顧客とデータを共有し、クラウドベンダーからの高額なデータ送信コストを最小限に抑えるにはどうすればよいかということです。

Delta SharingとCloudflare R2の共同ソリューションを採用する前、Alliumは他のプラットフォームを導入していましたが、法外に高価であり、推定コストは1ペタバイトのデータ消去で毎月5万3800ドル、年間合計約64万5,000ドルに達していました。

Alliumの共同設立者兼CEOのイーサン・チャン氏は、次のように説明します。

"当初はSnowflakeのレプリケーション・システムを利用していましたが、コントロールに欠け、高価でした。Snowflakeでは、異なるリージョンにデータを提供するには、そのリージョンにデータをレプリケートする必要があるため、自動的に多くのストレージコストとイグレスコストが発生します。 この費用は、私たちの規模では頻繁に発生する運用スキーマの変更で指数関数的に増加します。" - イーサン・チャン、アリウム共同設立者兼CEO

Delta SharingとCloudflare R2の組み合わせにより、Alliumはコスト効率の高いセキュアなデータ共有ソリューションを得ることができました。 Alliumは、Delta Sharingのマルチクラウド対応により、データの移動先や利用先をコントロールできるようになり、クラウドストレージをCloudflare R2に統合して次世代のデータ共有プラットフォームを構築しました。

Alliumはこの統合を利用して、追加のコピーを作成することなくParquetテーブルフォーマットを統一するシームレスな方法であるDelta UniForm(DeltaLake Universal Format)を使用してブロックチェーンデータを永続化することで、コスト削減を最大化しています(下図参照)。 AlliumはCloudflare R2に保存されたデータを読み込むApache IcebergとDeltaコネクタを可能にします。 また、デルタ・シェアリングを導入することで、地域やプラットフォームをまたいでデータをシームレスかつ安全に共有することができます。

チャン氏は次のように説明します。

"Delta SharingとCloudflare R2の両方を組み合わせることで、確実かつコスト効率よくお客様にデータを提供することができます。 最高品質のブロックチェーンデータをお客様のお好みの環境でお届けする一方で、保管と排出のコストを最小限に抑え、年間最大64万5000ドルのコスト削減を実現しています。さらに、これによって私たちは、提供するサービスを持続的に拡大するためのコントロールとセキュリティの両方を手に入れることができます。" - イーサン・チャン、アリウム共同設立者兼CEO

アリウムデータプラットフォーム

Alliumは最近、イーサリアムリアルタイムデータを共有するために製品ラインを拡張し、Databricks Marketplaceに掲載されました。 このデータセットは、イーサリアムのダイナミクスに関する貴重な洞察を共有する暗号通貨分野のユーザーをサポートします。 購入可能な本書には、スマートコントラクト、NFT、分散型金融(DeFi)市場など、イーサリアムのブロックチェーンに関するいくつかの詳細が記載されています。

業界における主な使用例

Delta SharingとCloudflare R2を使用することで利益を得ることができる顧客のタイプのもう一つの例は、一般的に使用される「ハブ&スポーク」アーキテクチャパターンを使用するデータアグリゲーターです。 データアグリゲーターは、多様なソースからデータを収集し、統一されたまとまりのあるデータセットに統合することを専門としています。 ハブ&スポークデータ共有シナリオは、1つの組織が多くの顧客と共有する1対多と定義されます。 これらのデータアグリゲーターは、異なる地域、クラウド、プラットフォームにまたがる様々なクライアントにデータセットを収集、統合、共有することを専門としています。 しかし、これらの組織は、費用対効果が高く、予測可能な方法でデータ共有を拡大する方法という共通の課題に直面しています。 理想的なのは、規模の経済の恩恵を受けられることで、顧客の数が増えても、シェアリング・コストはわずかな増加にとどまるはずです。 さらに、コスト削減のためにデータレプリケーションを採用する顧客に依存するのではなく、予測可能なアプローチでコストを管理することを望んでいます。

一般的にデータアグリゲーターを利用する業界には、金融サービス、ヘルスケア、ライフサイエンス、メディア・エンターテイメントなどがあります。 データを共有することで、意思決定、市場分析、調査、業務全般のサポートなど、重要なビジネスニーズの推進に役立ちます。 例えば、データアグリゲーターは、ユーザーの金融情報に安全にアクセスし分析することで、予算管理アプリ、投資プラットフォーム、融資ソリューションなど、さまざまな金融アプリケーションやサービスを強化する上で重要な役割を果たしています。 業界特有の使用例については、以下の表をご覧ください。

業種データアグリゲーターの使用例ユースケースの詳細
メディア・エンターテイメントコンテンツアーカイブアグリゲーターは、コンテンツを体系的にアーカイブするために使用することができ、メディア企業がパートナーや顧客とコンテンツを共有し、新しいオーディエンスやプラットフォーム向けに過去のコンテンツにアクセスし、再利用することを容易にします。
金融サービス信用スコアリングとリスク評価データアグリゲーターは、支出パターン、収入レベル、債務負担など、ユーザーの財務行動に関する洞察を提供します。 この情報は共有され、貸金業者や金融機関が信用リスクを評価し、総合的な信用格付けに基づいて融資を決定する際に利用することができます。
医療・ライフサイエンス商業的効果ヘルスケアデータアグリゲーターは、臨床処方データを病院、医療提供者、製薬会社、研究機関に提供し、様々な方法で分析・利用することができます。 これには、新規参入市場の特定、販売チャネルの動態測定、小売薬局や病院での購買パターンなどが含まれます。

節約額の算出と共同ソリューションの導入時期

クラウドのデータ送信コストは通常、データ共有から照会されるデータ量に比例して増加します。 下図は、クエリー数(およびデータ量)が増加するにつれて、データ送信コストも増加することを示しています。 お客様はこのアプローチを使用して、異なるストレージソリューションを比較し、データ送信コストを導入しないCloudflare R2のソリューションを使用することのコストメリットを定量化することができます。 下図が強調するように、Cloudflare R2のソリューションは他のクラウドストレージソリューションと比較して大幅なコスト削減につながります。

例えば、標準的な価格設定の前提に基づくと、以下の分析によると、データ転送アクティビティが異なるクラウド間で26%を超える、または地域間で85%を超えるデータ資産は、ストレージとデータ送信の両方のコストにおいて、毎月大幅なコスト削減の恩恵を受けることができます1。

データ転送

Delta SharingとCloudflare R2のテストドライブ

Delta SharingとCloudflare R2がPublic Previewで利用可能になりました。 共同ソリューションを実装するために、すべてのデータをCloudflare R2に移行する必要はありません(関連ブログ「Delta Sharingによるグローバルデータ連携のアーキテクチャ」を参照)。 共有データをR2にレプリケートするのは一度だけで、3つの簡単なステップで済みます(下図参照):

  1. Cloudflare R2を外部ストレージとして追加します。
  2. Cloudflare R2で新しいテーブル、ボリューム、MLモデルを作成し、Deep Cloneを使用してデータを増分的に同期します。
  3. R2テーブルに通常通りDelta Shareを作成します。

グローバルデータアグリゲーター デルタ共有モデル

詳細は技術資料をご参照ください。 また、[email protected]で私たちのチームにフィードバックを提供することもできます。

Delta SharingとCloudflare R2を使用することで、プラットフォーム、クラウド、地域をまたいでデータとAIを共有する新しいアプローチを利用することができます。

Delta Sharingをデータコラボレーション戦略に統合する方法については、最新のリソースをご覧ください:

1コスト削減の計算は、データの10%が毎月リフレッシュされ、データは共有目的でCloudflare R2にレプリケートされ、オリジナルコピーはS3に保持されるという仮定に基づいています。

Databricks 無料トライアル

関連記事

Delta Sharingによるグローバル・データ・コラボレーションの構築

今日の相互接続されたデジタル環境では、組織やプラットフォームを超えたデータ共有とコラボレーションが、現代のビジネス運営に不可欠です。 革新的なオープンデータ共有プロトコルであるDelta Sharingは、ベンダーやデータ形式の制約を受けることなく、セキュリティとスケーラビリティを優先し、組織が多様なプラットフォーム間でデータを安全に共有し、アクセスできるようにします。 このブログでは、特定のデータ共有シナリオに合わせたアーキテクチャガイダンスを検討することで、Delta Sharing内のデータレプリケーションオプションを紹介します。 多くのDelta Sharingのお客様との経験から得た洞察をもとに、具体的なデータレプリケーションの選択肢を提供することで、イグレスコストを削減し、パフォーマンスを向上させることを目標としています。 ライブ共有は多くの地域間データ共有シナリオに適していますが、データセット全体を複製し、各地域の複製用にデータ更新プロセスを確立した方がコスト効率が良い場合もあります。 Delta

DatabricksにAIモデルの共有機能が新登場!

本日、 Databricks Delta Sharingと Databricks Marketplaceの 両方でAIモデルの共有が可能になったことを発表できることを嬉しく思います。 Delta Sharingを使用すると、クラウド、プラットフォーム、地域を越えて、組織内または外部でAIモデルを安全に共有し、提供することができます。 さらに、Databricks Marketplaceは、 John Snow Labsから 医療専門家をサポートするための60の新しい業界別AIモデルをリリースしました。 AIモデルの共有はパブリックプレビューで、Delta Sharingとマーケットプレイスで利用可能です。 Databricks Data Intelligence Platformは、モデル提供、AIトレーニング、モデル監視を含むエンドツーエンドの機械学習機能により、モデルの検索と共有を行う新しい機能をサポートします。 ジェネレーティブAIで高まるシェアリング需要に対応 ここ数カ月、DatabricksはDatab
プラットフォームブログ一覧へ