メインコンテンツへジャンプ

マネージド MLflow

より優れたモデルと生成 AI アプリの構築

マネージド MLflow とは

Managed MLflow は、Databricks が開発した、より優れたモデルと生成 AI アプリを構築するためのオープンソースプラットフォームである MLflow の機能を拡張したもので、企業の信頼性、セキュリティ、スケーラビリティに重点を置いています。 MLflow の最新アップデートでは、大規模言語モデル(LLM)の管理およびデプロイ機能を強化する革新的な LLMOps 機能が導入されました。この拡張された LLM サポートは、業界標準の LLM ツールである OpenAI と Hugging Face Transformers、および MLflow デプロイメントサーバーとの新しい統合によって実現されます。 さらに、MLflow は LLM フレームワーク(LangChain など)と統合することで、チャットボット、文書要約、テキスト分類、センチメント分析など、さまざまなユースケースに対応する生成 AI アプリケーションを作成するためのモデル開発を簡素化することができます。

メリット

model development

モデル開発

本番稼働可能なモデルのための標準化されたフレームワークにより、機械学習のライフサイクル管理を強化し、迅速化します。マネージド型の MLflow のレシピは、シームレスな ML プロジェクトのブートストラップ、迅速なイテレーション、大規模なモデル展開を可能にします。チャットボット、文書要約、センチメント分析、分類などのアプリケーションを容易に作成できます。LangChain、Hugging Face、OpenAI とシームレスに統合された MLflow の LLM を使用して、生成 AI アプリケーション(チャットボット、文書要約など)を簡単に開発できます。

Deploy a model for a batch interface

実験の追跡

機械学習ライブラリ、フレームワーク、言語を使って実験することができ、各実験のパラメータ、メトリック、コード、およびモデルを自動的に追跡します。Databricks ワークスペースとノートブックの組み込みの統合機能により、Databricks 上で MLflow を使用することで、対応する成果物やコードバージョンも含めた実験結果の安全な共有、管理、比較ができます。また、MLflow の評価機能により、生成 AI 実験の結果を評価し、品質を向上させることができます。

model development

モデル管理

一元的な場所を使用して、機械学習モデルの検出と共有、実験からオンラインでのテストと実稼働への移行に関する共同作業、承認とガバナンスのワークフローと CI/CD パイプラインとの統合、機械学習のデプロイとそのパフォーマンスを監視します。MLflowモデルレジストリを使用することで、専門知識と知識の共有を容易にし、管理を維持できます。

model development

モデルのデプロイ

本番モデルは、Apache Spark™ でバッチ推論を実行するために、または Docker コンテナ、Azure ML、Amazon SageMaker に統合されている組み込み機能を使用する REST API として、迅速にデプロイできます。Databricks 上のマネージド型の MLflow では、Databricks Jobs Scheduler や自動管理クラスターを利用して本番モデルを運用および監視し、ビジネスニーズに応じてスケーリングすることができます。

MLflow の最新のアップグレードは、生成 AI アプリケーションをデプロイするためにシームレスにパッケージ化します。 Databricks のモデルサービング を使用することで、チャットボットやドキュメントの要約、感情分析、分類などの生成 AI アプリケーションを大規模に展開できるようになりました。

Features

MLflow Tracking

MLFLOW TRACKING: Automatically log parameters, code versions, metrics, and artifacts for each run using Python, REST, R API, and Java API

GENERATIVE AI DEVELOPMENT: Simplify model development to build GenAI applications for a variety of use cases such as chatbots, document summarization, sentiment analysis and classification with MLflow’s Deployments Server and Evaluation UI, supported by native integration with LangChain, and seamless UI for fast prototyping and iteration.

MLFLOW TRACKING SERVER: Get started quickly with a built-in tracking server to log all runs and experiments in one place. No configuration needed on Databricks.

EXPERIMENT MANAGEMENT: Create, secure, organize, search and visualize experiments from within the workspace with access control and search queries.

MLFLOW RUN SIDEBAR: Automatically track runs from within notebooks and capture a snapshot of your notebook for each run so that you can always go back to previous versions of your code.

LOGGING DATA WITH RUNS: Log parameters, datasets, metrics, artifacts and more as runs to local files, to a SQLAlchemy compatible database, or remotely to a tracking server.

DELTA LAKE INTEGRATION: Track large-scale datasets that fed your models with Delta Lake snapshots.

ARTIFACT STORE: Store large files such as S3 buckets, shared NFS file system, and models in Amazon S3, Azure Blob Storage, Google Cloud Storage, SFTP server, NFS, and local file paths.

MLflow Models

MLFLOW MODELS: A standard format for packaging machine learning models that can be used in a variety of downstream tools — for example, real-time serving through a REST API or batch inference on Apache Spark.

MODEL CUSTOMIZATION: Use Custom Python Models and Custom Flavors for models from an ML library that is not explicitly supported by MLflow’s built-in flavors.

BUILT-IN MODEL FLAVORS: MLflow provides several standard flavors that might be useful in your applications, like Python and R functions, Hugging Face, OpenAI and LangChain, PyTorch, Spark MLlib, TensorFlow and ONNX.

BUILT-IN DEPLOYMENT TOOLS: Quickly deploy on Databricks via Apache Spark UDF for a local machine, or several other production environments such as Microsoft Azure ML, Amazon SageMaker, and building Docker Images for Deployment.

MLflow Model Registry

CENTRAL REPOSITORY: Register MLflow models with the MLflow Model Registry. A registered model has a unique name, version, stage and other metadata.

MODEL VERSIONING: Automatically keep track of versions for registered models when updated.

MODEL STAGE: Assign preset or custom stages to each model version, like “Staging” and “Production” to represent the lifecycle of a model.

CI/CD WORKFLOW INTEGRATION: Record stage transitions, request, review and approve changes as part of CI/CD pipelines for better control and governance.

MODEL STAGE TRANSITIONS: Record new registration events or changes as activities that automatically log users, changes, and additional metadata such as comments.

MLflow Deployments Server

GOVERN ACCESS TO LLMS: Manage SaaS LLM credentials.

CONTROL COSTS: Set up rate limits.

STANDARDIZE LLM INTERACTIONS: Experiment with different OSS/SaaS LLMs with standard input/output interfaces for different tasks: completions, chat, embeddings.

MLflow Projects

MLFLOW PROJECTS: MLflow projects allow you to specify the software environment that is used to execute your code. MLflow currently supports the following project environments: Conda environment, Docker container environment, and system environment. Any Git repo or local directory can be treated as an MLflow project.

REMOTE EXECUTION MODE: Run MLflow Projects from Git or local sources remotely on Databricks clusters using the Databricks CLI to quickly scale your code.

MLflow Recipes

SIMPLIFIED PROJECT STARTUP: MLflow Recipes provides out-of-box connected components for building and deploying ML models.

ACCELERATED MODEL ITERATION: MLflow Recipes creates standardized, reusable steps for model iteration — making the process faster and less expensive.

AUTOMATED TEAM HANDOFFS: Opinionated structure provides modularized production-ready code, enabling automatic handoff from experimentation to production.

最新の機能の詳細については、Azure Databricks と AWS の製品ニュースをご覧ください。

MLflow の機能比較

Open Source MLflow

Managed MLflow on Databricks

実験の追跡

MLflow 追跡 API

MLflow 追跡サーバー

自己ホスト型

フルマネージド型

ノートブックの統合

ワークフロー連携

再現可能なプロジェクト

MLflow プロジェクト

Git と Conda の統合

プロジェクト実行のためのスケーラブルなクラウド/クラスター

モデル管理

MLflow Model Registry

モデルのバージョン管理

ACL ベースのステージ遷移

CI/CD ワークフローの統合

柔軟なデプロイ

組み込みのバッチ推論

MLflow モデル

組み込みのストリーミング分析

セキュリティと管理

高可用性

自動更新

ロールベースのアクセス制御

仕組み

MLflow は、機械学習ワークフロー全体を通して任意の ML フレームワークで使用できる、API とユーザーインターフェイスの軽量なセットです。次の 4 つのコンポーネントが含まれます:MLflow 追跡MLflow プロジェクトMLflow モデルMLflow モデルレジストリ

MLflow について詳しくはこちらをご覧ください。

managed mlflow
MLflow Tracking

実験の記録とクエリ:コード、データ、構成、結果

詳しく見る
managed mlflow
MLflow プロジェクト

あらゆるプラットフォームで再現可能な実行用のパッケージ形式。

詳しく見る
managed mlflow
MLflow モデル

モデルをさまざまなデプロイツールに送信するための一般的な形式。

詳しく見る
managed mlflow
MLflow Model Registry

ライフサイクル全体で MLflow モデルを共同で管理するための中央リポジトリ。

詳しく見る

Databricks のマネージド型 MLflow

Databricks のマネージド型 MLflow は、MLflow のフルマネージド型バージョンです。Databricks レイクハウスプラットフォームの高い信頼性、セキュリティ、スケーラビリティを備え、Databricks ノートブック、ジョブ、およびデータストア全体での再現性と実験管理をユーザーに提供します。

ドキュメントを読む

Log Your First Run as an Experiment MLflow

リソース