Databricks Machine Learning の概要:データネイティブ、コラボレーティブな MLライフサイクル全体のソリューション

Today, we announced the launch of Databricks Machine Learning, the first enterprise ML solution that is data-native, collaborative, and supports the full ML lifecycle. This launch introduces a new purpose-built product surface in Databricks specifically for Machine Learning (ML) that brings together existing capabilities, such as managed MLflow, and introduces new components, such as AutoML and the Feature Store. Databricks ML provides a solution for the full ML lifecycle by supporting any data type at any scale, enabling users to train ML models with the ML framework of their choice and managing the model deployment lifecycle – from large-scale batch scoring to low latency online serving.

Databricks Machine Learning は、データネイティブ、コラボレーティブ、ML ライフサイクル全体をサポートする史上初のエンタープライズ ML ソリューションです。

AI はデータがカギ

多くの ML プラットフォームは、、ML での大きな課題を考慮していないケースがあります。つまり、それらのプラットフォームは、トレーニングに利用可能な高品質なデータが準備されていることを想定しています。このため、データチームはデータ処理には長けている一方で AI には適していないソリューションと、AI には長けているがデータ処理には適していないツールを組み合わせて運用しているケースがあります。事態をさらに複雑にしているのは、データプラットフォームとパイプラインの担当者(データエンジニア)は、ML モデルトレーニングの担当者(データサイエンティスト)、プロダクションアプリケーションのデプロイ担当者(ビジネスアプリケーションを有するエンジニアリングチーム)と違うということです。結果として、ML ソリューションは、データ、AI、必要となるツール、関係する人々の間のギャップを埋める必要があるのです。

ML ライフサイクル全体に対応するデータネイティブ、コラボレーティブなソリューション

データネイティブ
MLモデルはデータとコードを機械学習モデルに「コンパイル」した結果です。しかし、ソフトウェア開発に用いられる既存ツールは、データとコードの相互依存性を取り扱うには適していません。Databricks ML は、オープンなデータレイクハウス基盤の上に構築されている、史上初のデータネイティブなMLソリューションなのです。Databricks MLは以下の機能を提供します。

  • Any type of data, at any scale, from any source: With the Machine Learning Runtime, users can ingest and process images, audio, video, tabular or any other type of data – from CSV files to terabytes of streaming IoT sensor data. With an open source ecosystem of connectors, data can be ingested from any data source, across clouds, from on prem or from IoT sensors.
  • Built-in data versioning, lineage and governance: Integrating with the time travel feature of Delta Lake, Databricks ML automatically tracks the exact version of data used to train a model. Combined with other lineage information logged by MLflow, this provides full end-to-end governance to facilitate robust ML pipelines.

コラボレーション
ML モデルを完全な本格運用に移行するためには、データエンジニア、データサイエンティスト、アプリケーションエンジニアの貢献が不可欠です。Databricks ML は、関係者のワークフローを Databricks でサポートし、引き渡しの際に用いられるビルトインプロセスを提供することで、関係者間のコラボレーションを容易にします。コラボレーションの機能には以下のものが含まれます。

  • 多言語対応の Notebook:Databricks Notebook は Python、R、SQL、Scala に対応しています。同じ Notebook 内で複数の言語を使用できるため、それぞれのエンジニアが使い慣れた言語でコラボレーションができます。異なる言語を組み合わせることも可能です。
  • クラウドネイティブなコラボレーション機能:Databricks Notebook は共有可能であり、リアルタイムで共同作業を行うことができます。ユーザはリアルタイムで誰が Notebook にアクセスしているのかを確認でき、他のユーザーの変更をリアルタイムで確認できます。ビルトインのコメント機能によって、コラボレーションを促進します。
  • モデルライフサイクル管理:モデルレジストリはチームが ML モデルを共有できるコラボレーションハブであり、実験からオンラインでのテスト、実運用までの全てでコラボレーションが可能です。承認フローと連携し、MLのデプロイ、パフォーマンスを監視できます。
  • 共有、アクセス管理:セキュアなコラボレーションを行うために Databricks は、あらゆるオブジェクト(Notebook、実験、モデルなど)に対するきめ細かいアクセス制御を提供します。

完全な ML ライフサイクル
MLOps is a combination of DataOps, DevOps and ModelOps. To get MLops right, there is a vast ecosystem of tools that need to be integrated. Databricks ML takes a unique approach to supporting the full ML lifecycle and true MLOps.

MLOps は DataOps、DevOps、ModelOps の組み合わせです。

  • DataOps:データネイティブな特性を活かすことで、Databricks ML はビルトインのデータバージョン管理、ガバナンスを提供する唯一の ML プラットフォームとなっています。Databricks 上で行われる全ての ML モデルのトレーニングにおいては、使用されたデータのバージョンが記録されます。
  • DevOps:Databricks ML は Repos 機能を通じて、Git プロバイダーと連携できます。これにより、データチームはベストプラクティスに従って、CI/CD システムと連携することが可能になります。
  • ModelOps:マネージド MLflow によって、Databricks ML はモデルおよび関連するパラメータ、メトリクスの追跡、デプロイメントライフサイクルの管理、あらゆるモード(バッチからオンラインスコアリング)でのあらゆるプラットフォーム(AWS、Azure、GCP、オンプレミス、オンデバイス)へのデプロイといった機能を利用できます。
  • 完全な再現性:全体の ML ライフサイクルに対して十分に統合されたソリューションを提供することで、Databricks ML における作業においては、完全な再現性が保たれることになります。データ、パラメータ、メトリクス、モデル、コード、コンピューティング構成、ライブラリのバージョンは追跡され、いつでも再現できます。

新たなペルソナベースのナビゲーション、機械学習ダッシュボード
Databricks における ML ライフサイクル全体をシンプルにするために、新たなペルソナベースのナビゲーションを導入しました。Machine Learning が新たなオプションとなり、データサイエンスとエンジニアリング、SQL と共に選択可能です。Machine Learning を選択することで、ユーザは ML モデルをトレーニング、管理、デプロイするためのツール、機能にアクセスができます。また我々は新たな ML ランディングページを提供し、ここでは最近アクセスした ML のアセット(例:モデル、特徴量、実験)と ML に関連するリソースを参照できます。

Databricks における完全な ML ライフサイクルをシンプルにするために、新たなペルソナベースのナビゲーションを導入しました。

Feature Store と AutoML の概要
Databricks Machine Learning に追加された新機能はデータネィティブ、コラボレーティブプラットフォームの特性をさらに強化するものです。

特徴量ストア(Feature Store)
Feature Store は、データと MLOps プラットフォームと共同設計された史上初の特徴量ストアです。集中管理された特徴量レジストリによって特徴量の再利用を促進し、特徴量に対するオフラインアクセス、オンラインアクセスを可能にすることで、オンライン(モデルサービング)/オフライン(トレーニング、バッチスコアリング)の処理特性の違いのリスクを低減します。

Databricks の Feature Store は、データと MLOps プラットフォームと共同設計された初のフィーチャーストアです。

  • エンドツーエンドのリネージュとリネージュベースの検索を実現するために、Feature Registry は全ての特徴量テーブル、特徴量テーブルを作成したコード、特徴量計算に用いられたソースデータ、特徴量の利用者(例:モデル、エンドポイント)を追跡します。これにより、生データから、生データに基づき計算された特徴量テーブル、特徴量テーブルを利用したモデルに至る完全なリネージュを提供します。
  • トレーニングとサービングの特徴量の一貫性を保ち、オフライン/オンラインの処理特性の違いを解決するために、特徴量プロバイダは高いスループットと低いレーテンシーで特徴量を提供します。特徴量プロバイダは MLflow と統合されており、モデルデプロイメントのプロセスをシンプルにします。MLflow モデルフォーマットは、モデルが Feature Store からどの特徴量を使用したのかに関する情報を格納し、デプロイメントの際にモデルは特徴量検索を行うので、モデルを呼び出すクライアントアプリケーションはフィーチャーストアを気にする必要がありません。

Read more about our Feature Store product in the Feature Store launch blog post.

AutoML
我々の AutoML では、データサイエンティスト初心者が推奨されたモデルをデプロイするための UI ベースのワークフローを提供するグラスボックスアプローチを採用しています。AutoML は、データサイエンティストが自身で同じモデルを開発するさいに記述するトレーニングのコードを生成します。この透明性は、厳しい規制のある環境や専門家とのコラボレーションにおいて重要な意味を持ちます。

我々の AutoML では、データサイエンティスト初心者が推奨されたモデルをデプロイするための UI ベースのワークフローを提供するグラスボックスアプローチを採用しています。

  • 厳しい規制のある環境においては、監査可能性と再現性は厳しい要件となります。多くの AutoML 製品は不透明なボックスであり、モデルのアーティファクトのみを提供するだけです。どのようなタイプのモデルがトレーニングされたのかを明らかにすべきであるという規制の要件に対応するのが困難です。Databricks AutoML はトレーニングコードの完全な Python ノートブックを生成するので、規制元に対して完全な透明性を保つことが可能です。
  • データサイエンスの専門家とのコラボレーションにおいては、生成されたコードがドメインの専門性を用いたモデル調整の開始地点となります。実際には、AutoML はベースラインとして用いられ、モデルの有効性が見えてきたら、専門家が改善できます。

Read more about our AutoML product in the AutoML launch blog post.

次のステップ

Databricks Machine Learning is available to all Databricks customers starting today. Simply click on the new persona switcher and select Machine Learning. The new navigation bar will give you access to all ML features, and the ML Dashboard will guide you through relevant resources and provide access to your recently used ML artifacts. Learn more in our documentation for AWS, Azure and GCP.

製品・エンジニアリングチームの解説による Databricks Machine Learning の新機能の詳細を「Data + AI」サミットで無料でご覧いただけます。
Databricks 無料トライアル 使ってみる

ご登録

製品・エンジニアリングチームの解説による Databricks Machine Learning の新機能の詳細を「Data + AI」サミットで無料でご覧いただけます。