メインコンテンツへジャンプ

データ共有の民主化!プラットフォームに縛られないアプローチとは?

Delta Sharingを使用して、任意のプラットフォームでお客様やパートナーにリーチしましょう
Share this post

すべての業界の企業が、協力を促進し、イノベーションを加速するために、互いにデータを共有したいと考えています。しかし、これらの組織はしばしば異なるデータやクラウドプラットフォームを使用しており、これが摩擦を生じさせたり、協力を阻害したりします。DatabricksとLinux Foundationは、Delta Sharingを開発し、プラットフォーム、クラウド、地域間でのデータ共有に対する初のオープンソースアプローチで、データ交換の民主化における重要なマイルストーンを達成しました。Delta Sharingを使用すると、顧客は自身のプラットフォームと顧客ベース内での協力に限定されることなく、すべての顧客、パートナー、その他の協力者とデータを共有することができます。

2022年にDelta Sharingの一般提供を発表して以来、多くの企業がそれを採用し、クラウドやプラットフォームに関係なく、顧客やパートナーとの連携を最大化しています。Databricksの顧客は、Databricks-to-Databricks(D2D)とDatabricks-to-Open(D2O)の両方をサポートする、ネイティブに提供される管理されたDelta Sharingサービスを使用します。これは、非Databricksの顧客向けです。そのオープンなリーチのおかげで、D2Oは顧客に非常に人気があり、アクティブなシェアの40%がオープンコネクタを使用しています。Databricksの顧客であるAtlassianNasdaqは、Databricks D2Oを使用して、どのコンピューティングプラットフォームでも、どこでも、すべてのパートナーと顧客にデータを提供します。Oracleなどのデータおよびソフトウェアプラットフォームも、彼らの顧客を支援するためのOracle-to-Openの共有を可能にするためにDelta Sharingを採用しています。

Databricks-to-Open(D2O)Delta Sharingは、組織がデータを共有する方法を革新し、Unity Catalog対応のワークスペースで管理されたデータを、任意のユーザーが任意のコンピューティングプラットフォーム上で、どこでもシームレスに共有することを可能にします。このアプローチにより、Databricksの顧客は、パートナー、顧客、およびサプライヤーとの協力が可能になります。使用するデータやクラウドプラットフォームに関係なく。

このブログでは、現実世界のアプリケーションを用いて、D2Oが現代のデータ共有戦略における重要な役割を示します。私たちは、組織がデータ共有能力を拡張し、外部パートナーのシステムとの相互運用性を可能にし、どこでも顧客に到達することを可能にするD2Oシナリオを探求します。

また、Python、Apache Spark™、Excel、Tableau、PowerBIなど、急速に拡大しているDelta Sharingエコシステムの一部であるDelta Sharingオープンソースコネクタの中でも最も一般的に使用されるものを強調します。また、Databricksのお客様がD2OとDelta Sharing REST APIを組み合わせて、全顧客基盤にわたるデータ共有体験をカスタマイズするための統一されたデータファブリックアーキテクチャを構築する方法も紹介します。

最後に、Databricksのマーケットプレイスの最近のD2Oへのサポートを見てみましょう。これにより、Delta Sharingのオープンコネクタを介してマーケットプレイスのリストにアクセスできるようになりました。例えば、PythonコネクターやSparkコネクターが、Amazon EMR、Google BigQuery、SnowflakeなどのネイティブコネクターがないシステムでDelta Sharingリストを消費するためにどのように使用できるかを説明します。

ますます、企業はD2Oワークフローを導入して、複数のプラットフォーム間での外部協力を簡素化し、データの潜在能力を引き出し、イノベーションを推進し、堅実なガバナンスを確保し、成長を加速させることを目指しています。

コネクターのオープンエコシステム

Delta Sharingオープン共有プロトコルを使用して共有されたデータを消費するには、OSSコネクタが必要で、これは通常、プロバイダが受信者とアクティベーショントークンを共有したときに取得される認証ファイルを使用して認証されます。

下の表は、Delta Sharingが現在サポートしているOSSコネクタをまとめており、各コネクタのダウンロードリンクと主要な機能を示しています。例えば、Python Connectorは、メタデータのクエリ、スナップショットのアクセス、Change Data Feed (CDF)のサポート、Pandasのサポートなど、強力な機能を提供します。もう一つはApache Spark Connectorで、Pythonコネクタと同様の機能を提供し、Sparkユーザーのワークフローにシームレスに統合します。これらのコネクタは、より広範なOSS Delta Sharingプロジェクトの一部であり、馴染みのあるAPIを通じてデータ共有と消費を簡素化し、オープンでアクセス可能なデータ共有を推進することを目指しています。これらのコネクタはすべて、Unity Catalog(UC)からまだUCにない受信者のデータを読み取るのにも役立ちます。

コネクター説明ダウンロード主な特徴
PythonPython / PySpark共有クライアントGitHub
  • クエリメタデータ
  • クエリバージョン
  • 最新のスナップショットを取得
  • データフィードの変更 (CDF)
Apache SparkApache Spark共有クライアントGitHub
  • クエリメタデータ
  • クエリバージョン
  • 最新のスナップショットを取得
  • チェンジデータフィード
  • ストリーミング
Microsoft Power BI
PowerBI
Power BIはPower Queryを使用してデータソースに接続します。ドキュメントを読むPower BI Delta Sharing Connector
  • 最新のスナップショットを取得
Microsoft Excel
Microsoft Excel
Delta SharingとDeltaテーブルの作成のためのExcelアドインExponam Excel Add-in
  • クエリメタデータ
  • クエリバージョン
  • 最新のスナップショットを取得
TableauTableau Delta Sharingコネクタは共同統合を提供します。ブログ記事を読んでくださいTableau Delta Sharing Connector
  • クエリメタデータ
  • クエリバージョン
  • 最新のスナップショットを取得

今年初めには、TableauとDatabricks間のシームレスなデータ共有をサポートする新しいTableau Delta Sharingコネクタが発表されました

お客様がどこにいても対応:BigQueryとSnowflakeの例

ネイティブコネクタを持たないシステム、例えばBigQueryやSnowflakeとDelta Sharingを統合する際、Python delta sharingコネクタはこれらのギャップを効果的に埋める多機能な解決策を提供します。BigQueryのユーザーにとっては、PySparkを利用して‘delta_sharing’ライブラリ経由で共有データに認証しアクセスし、そのデータをDataFrameにロードして直接BigQueryに書き込むことができます。このプロセスは、スケーラブルなデータ処理のためにGoogle Cloud Dataprocを利用し、データの取り扱いが効率的かつ安全であることを保証します。Delta SharingをBigQueryと一緒に使用する方法について詳しく知りたい方は、Databricksの専門家によるMediumのブログ投稿をご覧ください。

同様に、Snowflakeの統合については、受信者はPythonコネクタとPandasライブラリを使用してデータをDataFrameにインポートすることができます。データのインポート後、SnowflakeのSnowpark Python APIはSnowflakeデータベースへの接続を容易にし、Pandas DataFrameからSnowflakeテーブルへのシームレスなデータ書き込みを可能にします。

コードの例

<span class="subtle">pip install delta-sharing, snowflake-snowpark-python pandas
import delta_sharing
import pandas as pd
# Delta SharingプロファイルJSONファイルへのパス
profile_file = "path/to/your/profile.delta-sharing.json"
# プロファイルを読み込む
client = delta_sharing.SharingClient(profile_file)
# 特定のテーブルをDataFrameに読み込む
table_url = "delta-sharing://<profile>#schema_name.table_name"
df = delta_sharing.load_as_pandas(table_url)

# Snowflake Snowparkセッションの設定
connection_parameters = { …}
# Snowflakeセッションを作成
session = Session.builder.configs(connection_parameters).create()
# pandas DataFrameを直接Snowflakeテーブルに書き込む
session.write_pandas(df_pandas, "your_snowflake_table_name", auto_create_table=True)</span>

この方法は大きな利点を提供します。データ共有のためだけにプロバイダーが別のシステムにデータを複製する必要がなくなるため、追加の計算リソース、ストレージ、技術的な労力が不要になります。Delta Sharingを使用することで、データプロバイダーはDatabricks環境から直接データを共有でき、受信者は複製の必要なく、さまざまなプラットフォームでライブデータにアクセスできます。このアプローチは、Delta Sharingの柔軟性とコスト効果を示すだけでなく、データを単一のシステムに統合することで効率も向上させます。

デルタ共有:オープンなクロスプラットフォーム共有エコシステム

Delta Sharing APIでデータサービスを強化する

多くの顧客は、Databricksの上に独自の製品やインターフェースを構築しています。これらの顧客は、Databricks Delta SharingのREST APIを使用して、顧客向けにカスタマイズされたデータ共有アプリケーションを作成しています。このようなアプリケーションは、ユーザーエクスペリエンスを向上させるだけでなく、包括的なデータファブリック戦略にシームレスに適合するように設計されています。

クライアントはこれらのカスタムアプリケーションを活用して、データ交換環境を制御し、同じプラットフォームを使用していない顧客に対して、Databricks上でホストされたデータを共有できるようにしています。

外部パートナーのニーズに合わせてユーザーインターフェースをカスタマイズすることで、組織は協力を強化し、イノベーションを促進し、データ交換をビジネス関係や顧客エンゲージメントを向上させる戦略的な資産に変えることができます。このアプローチにより、データ駆動型市場での競争力が強化されます。これらのカスタマイズされたインターフェースにおける柔軟性と適応性の強調は、戦略的データ交換の新時代を象徴しています。

例えば、AtlassianはDelta Sharingと統合し、顧客が柔軟でオープンなエコシステムでインサイトを得られるよう支援しています。Atlassian Analyticsの最新機能「データシェア」は、Databricks Delta Sharingのオープンソースプロトコルによって支えられています。データシェアを使用すると、Atlassianのデータに自分の環境や任意のBIツールでアクセスできます。Atlassianの2024年Data + AI Summitセッション「Delta Sharingによるエンタープライズグレードの顧客へのエンパワーメント - Atlassian Analyticsのストーリー」をぜひご覧ください。

Atlassian Analyticsは最近、DatabricksのDelta Sharingを活用した「Data Shares」をリリースし、柔軟性を高め、顧客のインサイト取得までの時間を短縮しました。ユーザーがAtlassian Analytics内で作業することを選んでも、既存のダッシュボードを引き続き使用することを選んでも、Delta Sharingのオープンなエコシステムには、Tableau、PowerBI、Sparkなどのコネクタが含まれており、顧客はAtlassian Data Lakeから直接データを使って、自分の環境を簡単に強化することができます。
— Ben Jackson, Senior Group Product Manager, Data & Analytics, Atlassian  

別のDatabricksの顧客であるNasdaqは、市場データ、代替データ、パートナーデータをユーザーに提供するData Link PlatformでDelta Sharingを使用しています。データセットが増えるにつれて、彼らはテラバイト単位のデータを安全かつ効率的に配信するためのスケーラブルなソリューションが必要となり、エグレスコストを削減する必要がありました。Nasdaqは、Databricksからの組み込みガバナンスを含むスケーラブルな方法で、彼らの特定のニーズに合わせてカスタマイズされたDelta Sharingを使用しています。NasdaqがD2O共有をどのように使用しているか詳しく知りたい方は、2024年のData + AI Summitセッション、「Delta Sharingはパートナーや顧客に対してあなたのデータの価値を解放します」で彼らから直接聞くことができます。

Oracleは昨年、Oracle Autonomous Databaseのユーザーがクラウド間でDatabricksに接続できるように、Delta Sharingの統合を発表しました。顧客はもはや、データを一つのプラットフォームに閉じ込められることや、データを別のプラットフォームと共有するためにデータをコピーする必要はありません。今では、Delta Sharingを使用することで、これらのプラットフォームはデータをコピーすることなく互いのデータを見ることができます。これにより、古いデータによる問題、不必要なコンピュータの使用、余分な作業を避けることができます。この統合について詳しく知るためのOracleのブログ投稿を読む。また、2024年のData + AI Summitセッション「Delta Sharing: セキュアなデータ共有のためのオープンプロトコル (OSS)」でOracleからも詳しく学ぶことができます。

DatabricksマーケットプレイスD2O

Databricks Marketplaceは、AIモデル、表形式のデータ、ファイルベースのデータ、および業界ベースのソリューションアクセラレータなど、すべてのデータとAIアセットのためのオープンマーケットです。

Databricks MarketplaceのD2O(Databricks-to-Open)機能は、Delta Sharingの力を活用して、非Databricksプラットフォーム上の受信者をサポートするためのMarketplaceの機能を拡張します。この拡張機能は、受信者の識別のためのユニークな認証システムを実装することで、従来のDatabricks-to-Databricks(D2D)のやり取りを超えた、より広範なデータ共有の可能性を実現します。標準的な手順ではDatabricksアカウントのメタストア間で相互認証に依存していますが、D2Oはオープンプロトコルを通じてデータの共有を容易にし、受信者がDatabricksアカウントを必要とせずに共有アセットにアクセスできるようにします。さらに、リストがインストールされた後、この機能は共有データにアクセスするために必要な認証トークンのダウンロードと更新をユーザーに提供します。これにより、Spark、PowerBI、Excel、非UC Databricksアカウントなどの外部ツールとの統合を可能にし、データのアクセシビリティとコラボレーションの範囲を広げることで、Databricks Marketplaceの有用性が向上します。

D2Oを通じたデータ協力の進展

D2O Delta Sharingの探求は、Databricksと非Databricksプラットフォーム間のデータ交換を促進する中心的な役割を強調しています。コネクタをデプロイすることで、D2Oはデータのアクセシビリティを強化し、Spark、PowerBI、Tableau、Excelを含むさまざまなプラットフォームとのシームレスな統合を確保します。この戦略的な相互運用性は、より包括的なデータエコシステムを促進し、様々な分析や運用シナリオでのデータの有用性と適用性を向上させます。

D2Oのデータ共有へのアプローチは、データ民主化における重要な進歩を示しており、組織が洞察を広め、伝統的な境界を超えて協力を促進することを可能にしています。この機能の影響は大きく、データ操作を簡素化し、イノベーションを促進し、成長と効率性の新たな道を開くことができます。

D2O Delta Sharingの能力と可能性を考えると、この革新は単なる技術的進歩以上のものであり、オープンでアクセス可能で協力的なデータ交換へのコミットメントであることが明らかです。D2Oによる進歩により、データ共有の未来は有望であり、データが今日のデジタル世界における意思決定と革新の重要な要素としての役割を確立しています。

Delta Sharing を始めましょう

Delta Sharingを組織内でどのように実装するかについて詳しく知りたい方は、以下の新しいeBooksや関連ブログなどの最新リソースをチェックするか、Delta Sharingの技術を深く掘り下げてみてください。

すでにDelta Sharingの顧客である場合は、質問をしたりフィードバックを提供したりするために、チームに[email protected]で連絡することもできます。

Databricks 無料トライアル

関連記事

Delta Sharingで実現する安全なエンドツーエンドのコラボレーション

Reviewed by saki.kitaoka 現代のデジタル環境において、セキュアなデータ共有は運用効率とイノベーションに不可欠です。DatabricksとLinux Foundationは、データ、分析、AI全体でのデータ共有に対する初のオープンソースアプローチとして Delta Sharing を開発しました。Databricksは、安全なデータ交換を提供し、プラットフォーム、クラウド、地域をまたいだシームレスな共有を促進します。あらゆる規模の企業が、幅広いアプリケーションと多様なデータ形式をサポートするDelta Sharingを信頼しています。この柔軟性により、データ資産の可能性を最大限に引き出そうとする組織にとって信頼できるツールとなります。 本ブログでは、Databricks Delta Sharingのセキュリティアーキテクチャを、 Databricks顧客間共有(D2D) 、 Databricks顧客からオープン共有(D2O) 、クロスクラウドデータ共有の3つの異なる共有シナリオを通じて検討し

Delta Sharingによるグローバル・データ・コラボレーションの構築

今日の相互接続されたデジタル環境では、組織やプラットフォームを超えたデータ共有とコラボレーションが、現代のビジネス運営に不可欠です。 革新的なオープンデータ共有プロトコルであるDelta Sharingは、ベンダーやデータ形式の制約を受けることなく、セキュリティとスケーラビリティを優先し、組織が多様なプラットフォーム間でデータを安全に共有し、アクセスできるようにします。 このブログでは、特定のデータ共有シナリオに合わせたアーキテクチャガイダンスを検討することで、Delta Sharing内のデータレプリケーションオプションを紹介します。 多くのDelta Sharingのお客様との経験から得た洞察をもとに、具体的なデータレプリケーションの選択肢を提供することで、イグレスコストを削減し、パフォーマンスを向上させることを目標としています。 ライブ共有は多くの地域間データ共有シナリオに適していますが、データセット全体を複製し、各地域の複製用にデータ更新プロセスを確立した方がコスト効率が良い場合もあります。 Delta

Coastal Community Bank、Databricksのデータインテリジェンスプラットフォームを用いて充実した金融エコシステムを構築

March 4, 2024 Giselle Goicocheaアンナ・キュイジア による投稿 in
Coastal Community Bank(Coastal)のSVP、Head of Technology Operations and ImplementationのBarb MacLean氏とCavallo TechnologiesのRob Cavallo社長に感謝します。 ゴリアテのコミュニティ・バンクとして繁栄 ある意味で、コミュニティ・バンクであることがこれほど厳しくなったことはありません。 米国では現在、上位15行が業界の預金と資産の大半を支配しており、大手5行で 総資産の56 % を管理しています。 さらに、中小銀行に対する規制上の要求も高まっており、大手の競争相手と同じような厳しい資本、報告、マネーロンダリング防止基準に従うことが求められています。 Coastal Community Bank(Coastal)のSVP、テクノロジー・オペレーションおよびインプリメンテーションの責任者であるBarb MacLean氏にとって、その解決策はサービスとしての銀行(BaaS)です。 CoastalがDe
プラットフォームブログ一覧へ