Was ist Managed MLflow?
Managed MLflow erweitert MLflow, eine Open-Source-Plattform, die von Databricks für das Machine Learning Lifecycle Management entwickelt wurde, gezielt um Funktionen für mehr Zuverlässigkeit, Sicherheit und Skalierbarkeit für Unternehmen. Das neueste Update von MLflow führt das innovative LLMOps-Feature ein, mit dem Nutzung und Verwaltung von Large Language Models (LLMs) verbessert werden soll. Diese erweiterte LLM-Unterstützung wird durch neue Integrationen mit gängigen LLM-Standardtools wie Hugging Face Transformers und OpenAI-Funktionen sowie MLflow AI Gateway umgesetzt. Darüber hinaus ermöglicht die Integration von MLflow in die Benutzeroberflächen von LangChain und Prompt Engineering eine einfachere Modellentwicklung zum Erstellen generativer KI-Anwendungen für eine Vielzahl von Anwendungsfällen wie Chatbots, Dokumentzusammenfassung, Textklassifizierung, Stimmungsanalysen usw.
Vorteile
Modellentwicklung
Verbessern und beschleunigen Sie das Machine Learning Lifecycle Management mit einem standardisierten Framework für produktionsreife Modelle. Verwaltete MLflow-Rezepte ermöglichen ein unkompliziertes Bootstrapping von ML-Projekten, eine schnelle Iteration und eine umfassende Modellbereitstellung. Erstellen Sie mühelos Anwendungen für Chatbots, Dokumentzusammenfassung, Stimmungsanalysen und Klassifizierung. Sie entwickeln generative KI-Apps (z. B. Chatbots, Dokumentenzusammenfassung) mit AI Gateway und Prompt Engineering aus MLflow im Handumdrehen – nahtlos integriert in LangChain, Hugging Face und OpenAI.
Nachverfolgung von Experimenten
Mit MLflow können Sie Experimente mit jeder ML-Bibliothek, jedem Framework und in jeder Programmiersprache durchführen sowie automatisch Parameter, Kennzahlen, den Code und die Modelle aus jedem Experiment nachverfolgen. Außerdem ermöglicht MLflow auf Databricks dank der eingebauten Integration mit dem Databricks Workspace und den Notebooks, die Ergebnisse von Experimenten sowie die entsprechenden Artefakte und Codeversionen gemeinsam sicher zu nutzen, zu verwalten und zu vergleichen.
Modellverwaltung
Nutzen Sie eine zentrale Stelle, um ML-Modelle zu entdecken und gemeinsam zu nutzen, um sie gemeinsam vom Experiment zu Online-Tests und zur Produktion zu bringen, um sie in Genehmigungs- und Governance-Workflows und CI/CD-Pipelines zu integrieren und um ML-Einsätze und ihre Leistung zu überwachen. MLflow Model Registry erleichtert den Austausch von Know-how und Wissen und hilft Ihnen, die Kontrolle zu behalten.
Modelle bereitstellen
Implementieren Sie schnell Produktionsmodelle für Batch-Inferenzen auf Apache Spark™ oder als REST-APIs mithilfe der integrierten Integration mit Docker-Containern, Azure ML oder Amazon SageMaker. Mit Managed MLflow auf Databricks können Sie Produktionsmodelle mit dem Databricks Jobs Scheduler und automatisch verwalteten Clustern operationalisieren und überwachen, um sie je nach Geschäftsanforderungen zu skalieren.
Die neuesten Upgrades für MLflow enthalten Gen-KI-Anwendungen für eine nahtlose Implementierung. Mit Databricks Model Serving können Sie Ihre Chatbots und andere Gen-KI-Anwendungen wie Dokumentzusammenfassung, Stimmungsanalysen und Klassifizierung jetzt umfassend bereitstellen.
Funktionen
MLFLOW-VERFOLGUNG
MLflow-Verfolgung: Protokollieren Sie automatisch Parameter, Codeversionen, Kennzahlen und Artefakte für jeden Lauf mit Python , REST , R API und Java API
PROMPT ENGINEERING: Vereinfachte Modellentwicklung zum Erstellen von Gen-KI-Anwendungen für eine Vielzahl von Anwendungsfällen wie Chatbots, Dokumentzusammenfassung, Stimmungsanalysen und Klassifizierung mit AI Gateway und Prompt Engineering aus MLflow, unterstützt durch native Integration in LangChain und eine nahtlose No-Code-Benutzeroberfläche für schnelles Prototyping und zügige Iteration.
MLflow-Tracking-Server: Mit einem integrierten Tracking-Server können Sie schnell alle Läufe und Experimente an einem Ort protokollieren. Keine Konfiguration auf Databricks erforderlich.
Experimentverwaltung: Erstellen, sichern, organisieren, suchen und visualisieren Sie Experimente aus dem Workspace mit Zugriffskontrolle und Suchanfragen.
MLFLOW-AUSFÜHRUNGSSEITENLEISTE: Hier können Sie automatisch Ausführungen in Notebooks nachverfolgen und für jede Ausführung einen Snapshot Ihres Notebooks erfassen, sodass Sie immer zu früheren Versionen Ihres Codes zurückkehren können.
Protokollieren von Daten mit Durchläufen: Protokollieren Sie Parameter, Datensätze, Metriken, Artefakte und mehr als Durchläufe in lokalen Dateien, in einer SQLAlchemy-kompatiblen Datenbank oder remote auf einem Tracking-Server.
Delta-Lake-Integration: Verfolgen Sie umfangreiche Datensätze, die Ihre Modelle mit Delta Lake-Schnappschüssen gespeist haben.
Artefaktspeicher: Speichern Sie große Dateien wie S3-Buckets, freigegebenes NFS-Dateisystem und Modelle in Amazon S3, im Azure Blob-Speicher, Google Cloud-Speicher, auf dem SFTP-Server, in NFS und lokalen Dateipfaden.
MLflow-Modelle
MLFLOW-MODELLE: Ein Standardformat für die Erstellung von ML-Modellen, das in einer Vielzahl von nachgelagerten Tools verwendet werden kann, z. B. Echtzeitbereitstellung über eine REST-API oder Batch-Inferenz auf Apache Spark.
Modellanpassung: Verwenden Sie Benutzerdefinierte Python-Modelle und Benutzerdefinierte Varianten für Modelle aus einer ML-Bibliothek, die von den in MLflow integrierten Varianten nicht explizit unterstützt werden.
INTEGRIERTE MODELLVARIANTEN: MLflow bietet mehrere für Ihre Anwendungen sinnvolle Standardvarianten. Hier zugehören beispielsweise Python- und R-Funktionen, Hugging Face, OpenAI und LangChain, PyTorch, Spark MLlib, TensorFlow und ONNX.
INTEGRIERTE BEREITSTELLUNGSTOOLS: Schnelle Bereitstellung in Databricks über Apache Spark UDF für einen lokalen Computer oder mehrere andere Produktionsumgebungen (z. B. Microsoft Azure ML, Amazon SageMaker) und Erstellen von Docker-Images zur Bereitstellung.
MLflow-Modellregister
ZENTRALES REPOSITORY: Registrieren Sie MLflow-Modelle im MLflow Model Registry. Ein registriertes Modell hat einen eindeutigen Namen, eine eindeutige Version, eine eindeutige Stufe und andere Metadaten.
Modellversionierung: Verfolgen Sie automatisch die Versionen für registrierte Modelle, wenn diese aktualisiert werden.
MODELLPHASE: Jeder Modellversion wurden voreingestellte oder benutzerdefinierte Phasen zugewiesen, z. B. „Staging“ und „Production“, um den Lebenszyklus eines Modells darzustellen.
Integration von CI/CD-Workflows: Zeichnen Sie Phasenübergänge auf, fordern Sie Änderungen an, überprüfen und genehmigen Sie sie als Teil von CI/CD-Pipelines, um eine bessere Kontrolle und Steuerung zu gewährleisten.
Modellstufenübergänge: Erfassen Sie neue Registrierungsereignisse oder -änderungen als Aktivitäten, bei denen Benutzer, Änderungen und zusätzliche Metadaten wie Kommentare automatisch protokolliert werden.
MLflow AI Gateway
STEUERUNG DES LLM-ZUGRIFFS: Verwalten Sie Zugangsdaten für SaaS-LLMs.
KOSTENKONTROLLE: Richten Sie Tariflimits ein.
STANDARDISIERUNG VON LLM-INTERAKTIONEN: Experimentieren Sie mit verschiedenen OSS-/SaaS-LLMs mit I/O-Standardschnittstellen für verschiedene Aufgaben: Vervollständigung, Chat, Einbettung.
MLflow-Projekte
MLFLOW-PROJEKTE: In MLflow-Projekten können Sie die Software-Umgebung angeben, in der Ihr Code ausgeführt wird. MLflow unterstützt derzeit die folgenden Projektumgebungen: Conda-Umgebung, Docker-Container-Umgebung und Systemumgebung. Jedes Git-Repo- oder lokale Verzeichnis kann als MLflow-Projekt behandelt werden.
Remote-Ausführungsmodus: Führen Sie mithilfe der Databricks-CLI MLflow-Projekte von Git oder lokalen Quellen auf Databricks-Clustern aus, um Ihren Code schnell zu skalieren.
MLflow Recipes
VEREINFACHTER PROJEKTSTART: MLflow Recipes bietet sofort einsatzbereite verbundene Komponenten zum Erstellen und Bereitstellen von ML-Modellen.
BESCHLEUNIGTE MODELLITERATION: MLflow Recipes erstellt standardisierte, wiederverwendbare Schritte für die Modelliteration, wodurch der Prozess schneller und kostengünstiger wird.
AUTOMATISIERTE TEAMÜBERGABEN: Die Struktur bietet modularisierten, produktionsbereiten Code, der eine automatische Übergabe vom Experimentieren an die Produktion ermöglicht.
Sehen Sie sich doch unsere Produktneuigkeiten von Azure Databricks und AWS an, um mehr über unsere neuesten Funktionen zu erfahren.
Vergleichen von MLflow-Angeboten
Open Source MLflow | Managed MLflow on Databricks | |
---|---|---|
Nachverfolgung von Experimenten | ||
MLflow-Tracking-API | ||
MLflow-Tracking-Server | Eigenes Hosting | Vollständig verwaltet |
Notebooks-Integration | ||
Workflow-Integration | ||
Projekte reproduzieren | ||
MLflow-Projekte | ||
Git- und Conda-Integration | ||
Skalierbare Cloud/Cluster für Projektdurchläufe | ||
Modellverwaltung | ||
MLflow-Modellregister | ||
Modellversionierung | ||
ACL-basierte Stage Transition | ||
CI/CD-Workflow-Integrationen | ||
Flexible Bereitstellung | ||
Eingebaute Batch-Inferenz | ||
MLflow-Modelle | ||
Eingebaute Streaming-Analyse | ||
Sicherheit und Management | ||
Hochverfügbarkeit | ||
Automatische Updates | ||
Rollenbasierte Zugriffskontrolle |
Wie es funktioniert
MLflow ist ein kompakter Satz von APIs und Benutzeroberflächen, die mit jedem ML-Framework im gesamten Workflow für Machine Learning verwendet werden können. Er umfasst vier Komponenten: MLflow Tracking, MLflow Projects, MLflow Models und MLflow Model Registry
Managed MLflow auf Databricks
Managed MLflow on Databricks ist eine vollständig verwaltete Version von MLflow, die Anwendern Reproduzierbarkeit und Experimentverwaltung für alle Databricks-Notebooks, -Jobs und -Datenspeicher bietet – verbunden mit der bewährten Zuverlässigkeit, Sicherheit und Skalierbarkeit der Databricks Lakehouse-Plattform.