メインコンテンツへジャンプ

Original: Built on Databricks: Fueling Data and AI innovation in modern software products

翻訳: junichi.maruyama

AIの時代が到来しています。すべての製品メーカーは、新しいデータとAIの能力をどのように活用するかを自問しなければ、その製品は生き残れないでしょう。従来の説明的な分析は、テーブルステークスです。最新のアプリケーションは、ユーザーの期待に応えるために、リアルタイムの洞察とAI主導のアクションを取り入れる必要があります。

クラウドは、ソフトウェア・アプリケーションの設計と運用を著しく複雑にする、目まぐるしく変化するデータスタックの選択肢を可能にしました。ベスト・オブ・ブリードのアプローチをとる製品開発者は、あっという間に互換性のない複数のデータサイロをつなぎ合わせ、管理することになります。開発者の生産性は低下し、データメンテナンスのコストは制御不能に陥ります。

Abnormal Securityのようなスタートアップから Adobeのようなエンタープライズまで、トップクラスのソフトウェア企業がLakehouseを利用して製品を構築しています。Databricks Lakehouseは、データレイクと従来のデータウェアハウスの強みを兼ね備えています。従来のアナリティクスとAIやリアルタイムといった最新の機能を統合し、製品構築者が過去と未来のどちらかを選択する必要がないようにします。この統一されたアプローチは、開発者の生産性を加速させ、コストを削減し、最先端のイノベーションを可能にします。

このデータとAIの革命を促進するために、DatabricksはDatabricks Lakehouseプラットフォーム上に構築する企業への投資を増やしています。Databricks for StartupsとBuilt on Databricksプログラムは、製品構築者の成功を支援するために、財務、技術、GTMへの投資を提供します。

多すぎるデータベースの物語

製品開発者は通常、1つのデータのユースケースを念頭に置いてスタートし、1つのデータベースで迅速に構築します。

しかし、アプリケーションのデータニーズは継続的に増加します。最初は埋め込みチャートから始まり、ストリーミングアラートに進化し、やがてジェネレーティブAIが追加されるかもしれません。やがて、製品は複数のサービス(オープンソース、IaaSプラットフォームネイティブ、独自サービス)に依存するようになります。製品の各機能の開発と管理に時間がかかり、イノベーションと生産性は停止してしまう。

新しい製品を作るとき、ビルダーはしばしば、ロードマップのはるか先まで新しいデータやAI機能を開発しないと仮定して、道を蹴ってしまうという間違いを犯すことがあります。しかし、データフォワードプロダクトの場合、データベースのクリープはすぐに起こります。スタートアップが非常に早い段階で複数のデータパイプラインを必要としているのをよく見かけます。

Databricks Lakehouseで構築することで、プロダクトビルダーはこのデータベースクリープを回避することができます。

統一されたプラットフォームで生産性を向上させる

Data Lakehouse

Lakehouseは、データウェアハウスのデータ管理特性を低コストなクラウドデータレイクに直接実装することで、データレイクとデータウェアハウスのアーキテクチャを統一しています。その結果、Lakehouse上に構築されたアプリケーションは、構造化、半構造化、非構造化といったあらゆるデータにアクセスでき、データエンジニアリング、BI、ML、リアルタイムストリーミングなど、アプリケーションが必要とするあらゆる処理を実行できます。

VIZIOは、データ・アズ・ア・サービスの多様なニーズを統合するために、Databricks Lakehouse Platformを採用しました。VIZIOは米国を代表するスマートテレビメーカーで、テレビから得たデータをプラットフォームビジネスに活用し、魅力的なカスタマーエクスペリエンスを創造しています。Databricks Lakehouseを導入する前は、この規模のデータ・アズ・ア・サービスを運営するための単一のプラットフォームがありませんでした。そこで、多くのデータサービスやデータウェアハウスをつなぎ合わせることで、工夫を凝らしました。データ量や新機能が増えるにつれ、このシステムの管理は法外な費用と時間がかかるようになりました。さらに、このデータアーキテクチャは、彼らのイノベーションの可能性を制限するものでした。高度な新機能をサポートするために、データウェアハウスの上に別のリアルタイムストリーミングとプロダクションMLシステムを追加することは、大規模な事業となったことでしょう。

最終的にDatabricksは、ETL、モニタリング、オーケストレーション、ストリーミング、ML、データガバナンスを1つのプラットフォームで処理できる唯一のプラットフォームでした。Databricks SQL + Deltaは、実世界のデータに対してより速くクエリを実行できるだけでなく(他のデータウェアハウスベンダーと比較して3倍速く、60%安い)、プラットフォームを運用し将来的に機能を追加するためだけに他のサービスを購入する必要がなくなったのです。

つまり、Databricks Lakehouseは、妥協のない製品づくりを可能にするのです:

  • 最先端でイノベーションを起こす - 最先端のAI/MLやストリーミング機能(従来のBIアナリティクスも)を活用します。
  • 迅速な対応 - 製品の成長に合わせて、新しいデータおよびAI機能を迅速に開発します。
  • コスト削減 - すべてのユースケースを単一のソース・オブ・トゥルースで実行することにより、ETLとストレージのコストを大幅に削減します。
  • 効率性の向上 - 1つのプラットフォームで管理およびコラボレーションを行うことで、複数のシステムの複雑さを回避できます。
  • 潜在能力を引き出すスケール - ギガバイトからペタバイトのスケールまで、堅牢なパフォーマンスを実現します。

プロダクトビルダーは、特殊なデータストアの制約や複雑さから解放され、無制限にイノベーションを起こすことができます。

自分のレイクハウス、お客様のレイクハウス、またはその両方に構築する

Databricks Lakehouseプラットフォームは、アプリケーションとデータ処理の分離を可能にすることで、プロダクトビルダーに柔軟なオプションを提供します。Lakehouseはデータをマイクロサービスとして処理し、API、コネクタ、Delta Sharingを通じてアプリケーションにサービスを提供します。

製品を構築する際、データ処理を自分のLakehouseで構築するか、顧客のLakehouseで構築するか、両方の環境間で処理を共有するかを選択できます。Databricks Lakehouseは、お客様のニーズを満たす最適なアーキテクチャを構築するための力を与えてくれます。

Huntersは、Hunters SOC Platformを顧客のLakehouseインスタンス上に構築することを選択しました。Hunters SOC Platformは、顧客のLakehouseをセキュリティデータレイクに変える、最新のSIEMの代替品です。お客様のクラウドストレージを利用して、すべてのセキュリティ関連データをお客様のDatabricks Lakehouseにインジェストし、ETLを実行します:お客様はすべてのセキュリティデータの所有権を保持します。この作業には、数十種類のセキュリティ製品から得られるテラバイト単位のデータが含まれます。ハンターズのETLは、DatabricksのMedallion Architectureモデルに従って生データを保存し、統一スキーマにデータを正規化します。Huntersは豊富な分析機能を提供しますが、高度なサイバーセキュリティ分析チームを持つお客様は、Databricksのデータサイエンスと機械学習機能、およびDatabricksエコシステムのパートナー技術を活用することで、Huntersの機能を強化できます。

このアーキテクチャにより、Databricksのお客様は、すべてのデータを所有する柔軟性を維持しながら、自社のDatabricks Lakehouse Platform上でエンドツーエンドのセキュリティ運用プラットフォームを実現することができます。

Databricks、企業の成功を支援するプログラムに投資

Databricks for Startupsは、スタートアップのプロダクトジャーニーをサポートします。Databricksは、スタートアップ企業が心配することなく探索できる無料のクレジットと、迅速に製品を構築できるようにするための技術リソースを投資します。顧客やパートナーが製品を構築した後、Built on Databricksプログラムは、共同マーケティングや販売協力の機会を提供し、Databricks Lakehouseプラットフォームでの成長を支援します。KubitのDatabricks Lakehouse上での加速的な旅は、これらのプログラムの利点を例証するものです。

Kubitは、最新のデータ共有機能を活用し、今日の企業における無制限のデータ量と規模に対応した初の製品分析ツールとして、製品分析業界を破壊している新興企業です。既存の製品分析企業は、独自のデータスタック上に製品を構築しており、データサイロの中で顧客の分析ユースケースを制限しています。KubitはDatabricks Lakehouse Platform上に構築されており、優れた柔軟性、拡張性、パフォーマンスを提供します。KubitのプラットフォームはDelta Sharingを利用し、顧客の製品分析データと完全なデータモデルへの安全かつシームレスなアクセスを可能にします。Kubitは、数兆行(ペタバイト)のデータを処理することができ、大規模な企業のお客様にサービスを提供しています。

このような規模のアプリケーションを構築するのは大変な努力のいることです。KubitはDatabricks for Startupsプログラムに参加することで、無料のクレジットと迅速な技術的アドバイスを受け、すぐに構築を開始しました。チームは数週間でプロトタイプを開発し、4ヶ月でエンタープライズ対応の製品を作り上げました。Databricks Lakehouseで構築された製品を持つKubitは、Built on Databricksプログラムにも参加し、共同顧客に到達するためにDatabricksのサポートを享受しています。「最終的な製品は、MVPと比較して10倍から20倍の性能向上を実現しました。今、私たちは共同顧客との機会を探っています。Databricksのサポートは私たちの成功に不可欠であり、この結果に満足することはできません」とKubitのCEOであるAlex Liは述べています。

Databricks Lakehouseをはじめよう

AWS、Azure、Google Cloudなどのクラウドプラットフォームの台頭により、ソフトウェア企業はインフラ構築の必要性から解放され、前例のないソフトウェアイノベーションの10年間を生み出しました。Databricks Lakhouseは、開発者が構築するための包括的な統一データプラットフォームを提供することで、AIソフトウェアイノベーションの次の波を解き放ちます。

  • Built on Databricks websiteのウェブサイトで詳細をご確認ください。
  • 次世代アプリを構築するスタートアップ企業 - Databricks for Startupsのウェブサイトをご覧ください。
  • Built on Databricks のパートナープログラムについての詳細はこちら
  • Adobe、Action IQ、Hunters、その他多くのBuilt on Databricksのお客様やパートナーがストーリーを紹介するData and AI Summitに参加しよう

Learn more

Databricks 無料トライアル

関連記事

Databricks Marketplaceのパブリックプレビュー発表

Original Blog : Announcing Public Preview of Databricks Marketplace 翻訳: junichi.maruyama この度、オープンソースの Delta Sharing 規格を利用した、あらゆるデータ、アナリティクス、AIのためのオープンマーケットプレイス、 Databricks Marketplace のパブリックプレビューを発表します。Databricks Marketplaceは、データ消費者とデータ提供者の広大なエコシステムを結集し、データセット、ノートブック、MLモデルなど、さまざまなデータ資産を、プラットフォームの依存関係や複雑なETL、高価なレプリケーションなしに共有・共同利用できます。データコンシューマーは、組織のAI、ML、アナリティクスイニシアチブを革新・推進し、ベンダーロックインすることなく、より迅速なインサイトを提供することができます。データプロバイダーは、ビジネスを拡大し、新しいユーザーを獲得し、収益を上げることができます。
データ戦略一覧へ