MLflow Model Registry est disponible dès maintenant. Cliquez ici pour en savoir plus.

Mlflow administré

Gérer le cycle de vie du machine learning de bout en bout

Managed MLflow est conçu à partir de MLflow, plateforme open-source développée par Databricks pour faciliter la gestion du cycle de vie complet du machine learning et offrant un haut niveau d'évolutivité, de sécurité et de fiabilité.

Avantages

SUIVI DE TESTS

Run experiments with any ML library, framework, or language, and automatically keep track of parameters, metrics, code, and models from each experiment. By using MLflow on Databricks, you can securely share, manage, and compare experiments results, along with corresponding artifacts and code versions, thanks to built-in integrations with the Databricks Workspace and notebooks.

GESTION DE MODÈLES

Use one central place to discover and share ML models, collaborate on moving them from experimentation to online testing and production, integrate with approval and governance workflows and CI/CD pipelines, and monitor ML deployments and their performance. The MLflow Model registry facilitates sharing of expertise and knowledge, and helps you stay in control.

Déploiement de modèles

Déployez rapidement des modèles en production pour les inférences par batch sur Apache SparkTM ou sous forme d'API REST grâce aux intégrations natives avec les conteneurs Docker, Azure ML ou Amazon SageMaker. Avec Managed MLflow sur Databricks, vous pouvez mettre en service et surveiller les modèles de production à l'aide de l'ordonnanceur Databricks et des clusters auto-gérés en fonction de vos besoins métier.

Fonctionnalités

MLFLOW TRACKING

MLflow Tracking : Enregistrez automatiquement les paramètres, versions du code, indicateurs et artefacts de chaque exécution avec Python, REST, l'API R et l'API JAVA.

Serveur MLflow Tracking : Démarrez rapidement avec un serveur de suivi inclus permettant d'enregistrer toutes vos exécutions et expériences en un seul et même endroit. Aucune configuration n'est requise sur Databricks.

Gestion des tests : Créez, sécurisez, organisez, recherchez et visualisez vos tests depuis le workspace et bénéficiez du contrôle d'accès et des requêtes de recherche.

Barre latérale d'exécutions MLflow : Suivez automatiquement vos exécutions directement depuis les notebooks et capturez un instantané à chaque exécution ; ainsi, vous êtes toujours en mesure de revenir à une version précédente de votre code.

Journalisation des données des exécutions : Enregistrez les paramètres, jeux de données, indicateurs, artefacts, etc. en tant qu'exécutions, que ce soit dans des fichiers locaux, dans une base de données compatible SQLAlchemy ou encore à distance sur un serveur de suivi.

Intégration Delta Lake : Effectuez le suivi des jeux de données à grande échelle qui ont servi à alimenter vos modèles grâce aux instantanés Delta Lake.

Banque d'artefacts : Stockez des fichiers volumineux tels que des buckets Amazon S3 buckets, des systèmes de fichiers NFS partagés et des modèles sur Amazon S3, Azure Blob Storage, Google Cloud Storage, un SFTP, NFS ou via des chemins de fichiers locaux.

MLFLOW PROJECTS

MLflow Projects : Les projets MLflow permettent de préciser quel environnement logiciel utiliser pour exécuter votre code. À ce jour, MLflow prend en charge les environnements de projet suivants : environnement Conda, environnement en conteneurs Docker et environnement système. Tout dépôt Git ou répertoire local peut être traité en tant que projet MLflow.

Mode d'exécution à distance : Exécutez des projets MLflow à distance depuis Git ou des sources locales sur des clusters Databricks à l'aide de la ligne de commande Databricks et adaptez ainsi rapidement votre code à n'importe quelle échelle.

MLFLOW MODEL REGISTRY

Dépôt central : enregistrez des modèles MLflow avec le MLflow Model Registry. Chaque modèle enregistré possède un nom, une version et un stade propres ainsi que d'autres métadonnées.

Contrôle de version des modèles : Conservez automatiquement la trace des versions des modèles enregistrés lors de leur mise à jour.

Stades de modèles : Étapes prédéfinies ou personnalisées assignées à chaque version de modèle, telle que « pré-production » ou « production » pour représenter le cycle de vie d'un modèle.

Intégrations de workflows CI/CD : Enregistrez les transitions entre les stades, demandez, évaluez et approuvez des changements dans le cadre de pipelines CI/CD pour un contrôle et une gouvernance optimisés.

Transitions entre stades de modèles : Conservez les nouveaux événements d'enregistrement ou leurs modifications sous forme d'activités gardant automatiquement une trace des utilisateurs, changements et nouvelles métadonnées telles que les commentaires.

MLFLOW MODELS

MLflow Models : Format standard d'empaquetage des modèles de machine learning utilisable avec divers outils en aval tels que la diffusion en temps réel par une API REST ou l'inférence par batch sous Apache Spark.

Personnalisation de modèles : Utilisez des modèles Python personnalisés et des saveurs personnalisées pour vos modèles à partir d'une bibliothèque ML non explicitement prise en charge par les saveurs intégrées à MLflow.

Saveurs de modèles intégrées : MLflow fournit plusieurs saveurs standard pouvant se montrer utiles dans vos applications, par exemple des fonctions R et Python, H20, Keras, MLeap, PyTorch, Scikit-learn, Spark MLlib, TensorFlow ou encore ONNX.Outils de déploiement intégrés : Déployez rapidement sur Databricks via Apache Spark UDF pour une machine locale ou encore plusieurs autres environnements de production tels que Microsoft Azure ML, Amazon SageMaker et créez des images Docker pour le déploiement.

See our Product News from Azure Databricks and AWS to learn more about our latest features.

 

Comparaison des offres MLflow

MLflow
open-source
Managed MLflow
sur Databricks

Suivi des tests

API de suivi MLflow
Serveur de suivi MLflow Auto-hébergé Entièrement géré
Intégration des notebooks
Intégration des workspaces

Projets reproductibles

MLflow Projects
Intégration Git & Conda
Cloud/clusters évolutifs pour l'exécution des projets

Gestion de modèles

MLflow Model Registry
Contrôle de versions des modèles
ACL-based Stage Transition
Intégration de workflows CI/CD

Déploiements flexibles

MLflow Models
Inférence par batch intégrée
Analyses en streaming intégrées

Sécurité et gestion

Haute disponibilité
Mises à jour automatiques
Contrôle d'accès basé sur les rôles

Comment ça marche

MLflow est un ensemble d'interfaces utilisateur et d'API légères utilisables avec n'importe quelle infrastructure ML sur l'ensemble du workflow de machine learning. Il est constitué des quatre composants suivants :

  • MLflow Tracking : Permet d'enregistrer et d'effectuer des requêtes sur les tests : code, données, configuration et résultats.
  • MLflow Projects : Format d'empaquetage permettant de rendre les exécutions reproductibles à l'identique sur toutes les plateformes.
  • MLflow Models : Format général pour l'envoi de modèles vers différents outils de déploiement.
  • MLflow Model Registry : un dépôt centralisé permettant de gérer les modèles MLflow de manière collaborative, tout au long de leur cycle de vie.

Managed MLflow sur Databricks est une version entièrement gérée de MLflow qui apporte aux utilisateurs des exécutions reproductibles et une gestion des tests sur les différents notebooks, tâches et magasins de données Databricks. Il profite également de la fiabilité, de la sécurité et de l'évolutivité de l'Unified Data Analytics Platform.

Ressources