Databricks の AutoML

機械学習パイプラインを大規模に自動化

Databricks上の AutoMLは、データサイエンティストに必要な柔軟性と制御性を備え、特徴量エンジニアリング、
モデル検索、ハイパーパラメータチューニング、推論などから機械学習パイプラインを自動化します。

仕組み

Databricks は、データサイエンスのワークフローの数多くのステップ(拡張データの準備、視覚化、特徴量エンジニアリング、ハイパーパラメータチューニング、モデル検索、自動モデル追跡、再現性、ネイティブ製品の提供、パートナーシップ、カスタムソリューションの組み合わせによる展開など)を自動化します。これにより、完全に制御された透過的なAutoMLエクスペリエンスを実現します。

強化されたHyperoptとMLflowの統合による、Databricks上でのハイパーパラメータチューニングの大規模な実行を動画でご覧ください。

メリット

拡張性:利用頻度の高い機械学習フレームワーク向けのすぐに使える最適化により、ワークロードのスケーリングを自動化してトレーニング時間を短縮
制御性:シングルノードまたはマルチノード環境でタスクに適したアルゴリズムを選択し、実行数を抑えてコストを削減
使いやすさ:MLflow追跡の結果を自動的に記録し、Databricks上の Hyperoptでハイパーパラメータ検索を並列化
統合性:ETL処理からモデルのトレーニングや推論に至るまで、すべてのAutoMLステップを信頼性の高い単一プラットフォーム上で、安全かつ大規模に実行

機能

革新的な自動追跡機能

MLflowの実験追跡
オープンソースまたはマネージド型の MLflow を使用して、数十万件もの実験を追跡、比較、視覚化します。

分散型機械学習向け自動ハイパーパラメータチューニング
PySpark MLlib の相互検証との密接な統合により、MLflow で MLlib 実験を自動的に追跡します。

シングルノードの機械学習向け自動ハイパーパラメータチューニング
拡張された Hyperopt と MLflow への自動追跡により、最適化および分散されたハイパーパラメータ検索を実行します。

シングルノードの機械学習向け自動モデル検索
拡張された Hyperopt と MLflow への自動追跡により、最適化および分散された条件付きハイパーパラメータ検索を実行します。


Databricks Labs

Databricks LabsのAutoMLツールキット
自動化されたエンドツーエンドのモデル構築パイプラインは、Databricks Labsのカスタムソリューションからご利用できます。詳細については、お問い合わせください。


注目のパートナー

MicrosoftのAzure Machine Learning
Azure Databricks とMicrosoftのAzure Machine Learning との統合により、サービスの自動機械学習機能へのアクセスが可能になります。これらを組み合わせることで、Azure のエンドツーエンドの機械学習ソリューションが提供されます。

DataRobot
DatabricksにDataRobot を統合すると、Databricksのユーザーには自動モデリング機能が付加され、問題に対して最適な機械学習モデルをすばやく特定して使用できます。

 

無料お試し・その他のご相談を承っております

DATABRICKS を無料で試す