Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。
オープンなクラウドとデータプラットフォームの融合
DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージドクラウド分析とAI製品を組み合わせたオープンソースのメリットをお客様に提供します。
今回のパートナーシップは、お客様にとってどのような意味を持つのでしょうか?まず、Databricks レイクハウスプラットフォームをGoogle Cloud上に実装できるようになります。これは、Databricks の Delta Lakeによって実現されます。Delta Lakeは、データレイクにACIDトランザクションとバージョン管理によるデータの信頼性をもたらし、Google Cloud Storageのデータのデータガバナンスとクエリ性能を向上させます。Databricks on Google Cloudの提供開始により、お客様はGoogle Cloud上で分析インフラを統合することができ、リアルタイムストリーミング、SQLワークロード、ビジネスインテリジェンス、データサイエンス、機械学習、グラフ分析など、あらゆるデータアプリケーションの管理がシンプルになります。
The open cloud approach also improves interoperability and portability for enterprises that want to use multiple public clouds for analytics applications. A recent Gartner study concluded that at least 80% of enterprises had adopted a multi-cloud strategy across multiple geographies. The multi-cloud capability of Databricks allows customers to increase the efficiency and productivity of data processes, improve customer experiences, and create new revenue opportunities even when data is distributed across more than one cloud. For example, one leading global fast-food company (and Google Cloud customer) wants to build and deploy marketing solutions, such as churn reduction, behavioral segmentation, and lifetime value for about a dozen global markets by year-end 2021. By architecting a global data platform with Databricks, they will provide each regional business with a choice for their public cloud platform.
シンプルな統合
Databricksは、Google Cloudのコンピューティング、ストレージ、分析、管理製品と緊密に統合し、高性能とエンタープライズセキュリティを備えたシンプルで一元化されたエクスペリエンスをお客様に提供します。
コンピューティングとストレージ:Databricks on Google Cloudは、クラウド環境初のGoogle Kubernetes Engine(GKE)に構築された完全なコンテナベースのDatabricksランタイムです。また、GKEのマネージドサービスを利用して、開発者向けのポータビリティ、セキュリティ、スケーラビリティを実現しています。DatabricksからのGoogle Cloud Storage(GCS)への読み取り/書み込みアクセスにより、お客様はワークロードを迅速に、より低コストで実行できます。
分析:Databricksは、Google BigQueryとの最適化されたコネクタを備えています。Storage APIを介してBigQueryのデータに容易に直接アクセスでき、高性能なクエリを実現します。このコネクタは、述語プッシュダウンの追加、名前付きテーブルやビューのクエリ、BigQueryで直接SQLを実行してApache Spark™ DataFrameに結果をロードする機能をサポートしています。また、LookerのDatabricksとの統合やSQL Analyticsのサポート、Google Cloud上のオープンなAPI環境は、オープンでマルチクラウドなアーキテクチャに相乗効果をもたらします。この統合により、Lookerのユーザーはデータレイクを直接クエリできるようになり、斬新な視覚化エクスペリエンスが提供されます。
セキュリティと管理:Google Cloud Consoleで課金の一元化、ワンクリックセットアップができるため、Google Cloud Marketplaceからのシンプルなデプロイメン トが可能になります。DatabricksとGoogle Cloud Identityの統合により、お客様はGoogle Cloudの認証情報によるシングルサインオンで容易にDatabricksにアクセスでき、ユーザープロビジョニングを行うことができます。
Google Cloud上でのDatabricksの活用
Databricks on Google Cloudの最も革新的なユースケースには、小売業、通信業、メディア・エンターテイメント、製造業、金融サービスなどが挙げられます。あらゆる業界において、データはデジタルトランスフォーメーション(DX)の推進要因となっています。レイクハウスアーキテクチャにより、DatabricksとGoogle Cloudのお客様は、データドリブンなイノベーションを加速する新たな方法を見出しています。
ここでは、お客様が現在Databricksを使用している最も一般的なワークロードの一部をご紹介します。業界に特化したユースケースについては、「業界別ソリューション」のページをご覧ください。
データレイクの近代化
Databricks上のDelta Lakeは、高額でスケーリングが難しいオンプレミスのシステムを優れたアーキテクチャのGoogle Cloud Storageベースのデータレイクへ移行することを実現する最新の基盤を提供します。実際に、クラウドベースのHadoopからDatabricksに移行した企業では、データ処理性能が最大50%向上し、月々のインフラコストが40%低下しています。Databricks on Google Cloudへの移行は、管理オーバーヘッドの削減やコンピューティングリソースの迅速なスケーリング、自動スケーリングやジョブターミネーションによる運用コストの削減につながります。
スケーラブルなデータ処理で分析用データを準備
Databricksは、大規模なデータ処理に最適化されたクラスタ上の高性能ランタイムを使用して、ETLアーキテクチャをシンプルにし、データの取り込みと処理にかかるコストを削減します。Delta Lakeでは、構造化・半構造化・非構造化データ全てをRAW形式で確実に保存し、変換段階を経て、ACID保証付きの集約されたBI対応層へと段階的に移動させることができます。
データレイクでの信頼性の高い分析
お客様は、Google Cloud Storageのファイルストアをベースにしたデータレイク上でDelta Lakeを利用し、信頼性、高性能、ライフサイクルマネージメントを実現しています。Delta Lake は、データ破損の防止、クエリの高速化、データの鮮度向上、ML モデルの再現に役立ちます。これにより、お客様は常に信頼できるデータを分析に使用して知見を得ることができます。さらに、DatabricksはDelta Engineを提供します。Delta Engineは、データレイクでのクエリ(特にDelta Lakeで有効化されたクエリ)性能を大幅に高速化します。
データサイエンスと機械学習
Databricksのマネージド型のMLflowにより、データチームは生データから知見を得るまでのワークフロー全体において、全ての実験とモデルを1つの場所で追跡し、ダッシュボードを公開でき、社内や関係者とのハンドオフを促進することができます。また、Databricksのコラボレーション型のワークスペースは、データチームによるデータの探索、気づきの共有、実験の実行、MLモデルの構築を迅速にし、生産性を高めます。
まずはここから
Databricks on Google Cloudの提供開始は、お客様にも大きなメリットをもたらします。DatabricksとGoogle CloudのアナリティクスやAI製品との緊密な統合は、幅広い機能の提供を可能にしました。そして今後さらに多くの機能が追加される予定です。これからも、DatabricksはGoogle Cloudと連携して、データの問題を解決するインテリジェントなアプリケーションの構築に向けて、革新的な取り組みを続けてお客様をサポートしていきます。
If you are interested in Databricks on Google Cloud, request access via the product page. To learn more, visit us at the launch event hosted by TechCrunch where Ali Ghodsi and Thomas Kurian share their vision from this partnership and the benefits to customers.