メインコンテンツへジャンプ

Original: Hybrid Cloud Solutions with Databricks and Dell ECS storage

翻訳: junichi.maruyama

 

先週行われたDell Technologies World 2023のオープニングキーノートから、デルとDatabricksの戦略的パートナーシップの発表がありましたのでご紹介します。私たちの共同のお客様は、パブリッククラウド、オンプレミス、プライベートクラウドを問わず、Databricks Lakehouse PlatformからDell's Elastic Cloud Storage (ECS) 内に保存されたデータへ簡単にアクセスできるようになりました。さらに、Delta Sharingは、データの共有、移動、退出管理を合理化します。

多彩なオプションと機能でデータを活用し、ビジネスインサイトにつなげます

組織は、Databricks Lakehouse Platformによるクラウドのパワーと、オンプレミスまたはコロケーション施設にあるDell ECSオブジェクトストレージに保存されたデータの制御とコスト効率を組み合わせることができます。Databricksは、このwhitepaperで詳しく説明されているように、データエンジニアリング、データサイエンス、データウェアハウスの分析をECSオブジェクトストア上で直接実行できるようになりました。

Databricksにより、顧客はデータ、アナリティクス、AIのためのオープンで統一されたプラットフォームを手に入れ、組織が大量のデータを迅速かつ容易に共有、処理、分析することができるようになります。Dell ECSは、オンプレミス、プライベートクラウド、またはハイブリッド環境で展開可能な、大量の非構造化データを扱うエンタープライズレベルの組織向けに調整された、堅牢で安全なオブジェクトストレージプラットフォームを提供します。複数のノードで水平方向に拡張できる分散型アーキテクチャを採用しているため、大量のデータに対応し、高性能なワークロードをサポートすることができます。

Dell ECSは、Databricks Lakehouse Platformおよびすべての主要なクラウドプロバイダー(AWS、GCP、Azure)との互換性により柔軟性を高め、企業はクラウド、オンプレミス、プライベートクラウド環境でデータを分析できるようになり、汎用性を提供するとともに、ビジネスインサイトを促進する新しい革新的なオプションへの道を開く。

Breaking Down the Architecture

データワークロードをオンプレミスに拡張する

多くの組織では、ETL、AI、およびウェアハウスのSLAを満たすために大規模な分散コンピューティングが必要なエンタープライズグレードのワークロードが多数あり、それがクラウド隣接からであれDell ECSオンプレミスストレージに置かれているものであれ、ネットワーク接続の帯域幅を飽和させることができます。このようなタイプのワークロードでは、Databricksの大規模スケーラブルなコンピュートを利用するために、生データをクラウドストレージに置くだけで、データ製品をキュレーションし、次にキュレーションしたデータ製品を Delta Shareします。これにより、ユースケースに必要なデータのみを取り出すことができる、オンデマンドのイグレスが可能になります。データの重複や不要なデータ移動を防ぐシンプルなソリューションを提供する一方で、データのローカリティ要件を活用し、コスト効率の高い方法でSLAを達成することができます。

組織はまた、マルチクラウドやクロスリージョンのデータソリューションを実現するために、試行錯誤を重ねたDelta Sharingパターンを利用しています。そして今、これらのパターンはDell ECSストレージによってオンプレミスにも適用することができます。

Figure 1: Extending your data workloads to on-premises
Figure 1: データワークロードをオンプレミスに拡張する

クラウド・アドジェント・テクノロジー

プライベートクラウドやコロケーションハードウェアなどの技術により、Databricksへの広帯域かつ低遅延な接続が可能です。さらに、プライベートクラウドは複数のクラウドへの接続を可能にします。したがって、企業はDatabricksを使用して、1つまたは複数のクラウド上のECSオブジェクトストアでETL、データサイエンス、データウェアハウスの分析を同時に実行することができ、両者の長所を生かすことができます。

Figure 2: Connecting to multiple clouds
Figure 2: 複数のクラウドに接続する

Art of the Possible

オンプレミスのデータストレージを解き放つことで、以下のような新しい機会の扉を開くことができます。:

  • データの復元性 - Dell ECSはAWS、Azure、またはGCPのDatabricksから直接アクセスできるため、1つのデータのコピーを複数のクラウド環境で使用することができます。FactionのようにDatabricksとDell ECSインスタンスの間に低レイテンシ、高帯域幅のパイプがある場合、DatabricksのコンピュートはDell ECSでETL、データサイエンス、データウェアハウス活動を直接行うことができます。高可用性とディザスタリカバリの計画では、ECSを活用することで、異なるクラウド上のDatabricksインスタンス間をジャンプするシンプルで費用対効果の高い戦略が可能になります。
  • リモートソリューションとエアギャップソリューション - Dell ECSストレージを使用して、ビッグデータワークロードのローカル分析を行うことで、現場での洞察を得ることができます。低レイテンシのアナリティクスを実現するために、リモートサイトに直接レイクハウスを持ち込むことができます。大規模な集計アナリティクスでは、リモートサイトからのデータを変換や修正せずに中央ハブに直接供給することができます。
  • コストの最適化 - デルとDatabricksのパートナーシップにより、企業は安価な先行インフラで基本的な需要を満たし、スケーラブルなクラウドコンピューティングで基本的な需要を超えて拡張できる自由度を高めることができます。これにより、より多くのワークロードの要件をコスト効率の高い方法で満たすことができます。

まとめ

企業は一般的に、様々な目的のために大量のデータをオンプレミスに保存しており、歴史的にこれらのデータにはオンサイトのアプリケーションとインフラストラクチャにしかアクセスできませんでした。DatabricksとDell ECSの組み合わせにより、ハイブリッドレイクハウス機能が実現し、ビジネスの洞察や長期的な調査のためにすべてのデータにアクセスすることが可能になります。これは、企業がデータを活用する方法に大きな変化をもたらし、ワークフローの簡素化、データ投資の最適化、重要なビジネスインサイトの提供を目的としたマルチクラウドアーキテクチャを検討している企業にとって貴重なメリットとなります。

References

Databricks 無料トライアル

関連記事

Lakehouseの価値を最大化するためのデータアーキテクチャパターン

Original Blog : A data architecture pattern to maximize the value of the Lakehouse 翻訳: junichi.maruyama Lakehouseの優れた成果の1つは、従来のBI、機械学習&AIといったモダンなユースケースのワークロードを1つのプラットフォームで組み合わせることができることです。このブログ記事では、「1つのプラットフォームに2つのサイロがある」というリスクを軽減するアーキテクチャ・パターンを説明しています。本ブログで紹介するアプローチに従えば、機械学習やAIを利用するデータサイエンティストは、組織のビジネス情報モデルから得られる信頼性の高いデータに容易にアクセスできるようになります。同時に、ビジネスアナリストは、中核となるエンタープライズデータウェアハウス(EDW)の安定性と適合性を維持しながら、レイクハウスの機能を活用してデータウェアハウス(DWH)プロジェクトのデリバリーを加速させることができます。 データレイクと
プラットフォーム> パートナー一覧へ