Che cos'è Managed MLflow?
Managed MLflow estende le funzionalità di MLflow, una piattaforma open source sviluppata da Databricks per creare modelli migliori e app AI generativa, concentrandosi su affidabilità, sicurezza e scalabilità aziendali. L'ultimo aggiornamento di MLflow introduce funzionalità innovative GenAI e LLMOps che ne migliorano la capacità di gestire e distribuire modelli linguistici di grandi dimensioni (LLM). Questo supporto LLM ampliato è ottenuto attraverso nuove integrazioni con gli strumenti LLM standard di settori industriali OpenAI e Hugging Face Transformers, nonché con MLflow Deployments Server. Inoltre, l'integrazione di MLflowcon i framework LLM (ad esempio LangChain) consente lo sviluppo di modelli semplificati per la creazione di applicazioni AI generativa per una varietà di casi d'uso, tra cui chatbot, riepilogo di documenti, classificazione di testo, analisi del sentiment e altro ancora.
Vantaggi
Sviluppo di modelli
Migliora e accelera la gestione del ciclo di vita del machine learning con un framework standardizzato per modelli pronti per la produzione. Le ricette MLflow gestite consentono il bootstrap continuo di progetti ML , un'iterazione rapida e la distribuzione di modelli su largaScale . Crea applicazioni come chatbot, riepilogo di documenti, analisi del sentiment e classificazione senza sforzo. Sviluppa facilmente AI app generativa (ad esempio chatbot, riepilogo di documenti) con MLflow LLM le offerte di LangChain, che si integrano perfettamente con , Hugging Face e OpenAI.
Monitoraggio di esperimenti
Esegui l'esperimento con qualsiasi libreria, framework o linguaggio ML e tieni traccia automaticamente di parametri, metriche, codice e modelli di ciascun Experiment. Utilizzando MLflow su Databricks, puoi condividere, gestire e confrontare in modo sicuro i risultati Experiment insieme agli artefatti e alle versioni del codice corrispondenti, grazie alle integrazioni dell'integratore con l'area di lavoro e il notebook di Databricks . Potrai anche valutare i risultati dell'esperimento GenAI e migliorare la qualità con la funzionalità di valutazioneMLflow .
Gestione dei modelli
La soluzione offre un luogo centralizzato per scoprire e condividere modelli di ML, collaborare per portare i modelli dalla sperimentazione al collaudo online e alla produzione, integrare il processo con flussi di lavoro di approvazione e governance e pipeline CI/CD, e monitorare le implementazioni di ML e le relative prestazioni. Il registro dei modelli MLflow facilita la condivisione di competenze e conoscenze, aiutando l'utente a mantenere il controllo.
Implementazione di modelli
Implementa velocemente modelli in produzione per l'inferenza in batch su Apache Spark™ e come API REST, utilizzando l'integrazione con contenitori Docker, Azure ML o Amazon SageMaker. Managed MLflow on Databricks consente di operazionalizzare e monitorare modelli in produzione utilizzando Databricks Jobs Scheduler e cluster autogestiti per dimensionare la soluzione in base alle esigenze dell'azienda.
Gli ultimi aggiornamenti a MLflow raggruppano perfettamente le applicazioni GenAI per la distribuzione. Ora puoi distribuire i tuoi chatbot e altre applicazioni GenAI come il riepilogo dei documenti, l'analisi del sentiment e la classificazione su Scale, utilizzando Databricks Model Serving.
Funzioni
MLflow Tracking
MLFLOW TRACKING: registrazione automatica di parametri, versioni di codice, metriche e artefatti per ogni esecuzione che utilizza Python, REST, R API e Java API.
SVILUPPO DI AI GENERATIVO: semplifica lo sviluppo di modelli per creare applicazioni GenAI per una varietà di casi d'uso come chatbot, riepilogo di documenti, analisi del sentiment e classificazione con il server di distribuzione e l'interfaccia utente di valutazione di MLflow, supportato dall'integrazione nativa con LangChain e un'interfaccia utente semplice per la prototipazione rapida e iterazione.
MLFLOW TRACKING SERVER: Comincia subito a lavorare con un server di tracciamento integrato per registrare tutte le esecuzioni e gli esperimenti in un unico luogo. Non è richiesta alcuna configurazione su Databricks.
GESTIONEExperiment : crea, proteggi, organizza, cerca e visualizza Sperimenta dall'interno dello spazio di lavoro con il controllo degli accessi e le query di ricerca.
BARRA LATERALE DI ESECUZIONE MLFLOW: monitora automaticamente le esecuzioni dall'interno di Notebook e acquisisci un'istantanea del tuo Notebook per ogni esecuzione in modo da poter sempre tornare alle versioni precedenti del tuo codice.
REGISTRAZIONE DEI DATI CON LE ESECUZIONI: registra parametri, set di dati, metriche, artefatti e altri elementi sotto forma di esecuzioni in file locali, in un database compatibile con SQLAlchemy o su un server di tracciamento remoto.
INTEGRAZIONE CON DELTA LAKE: traccia set di dati su larga scala per alimentare i modelli con screenshot di Delta Lake.
STOCCAGGIO DI ARTEFATTI: memorizza grandi file come bucket S3, file system NFS condiviso e modelli in Amazon S3, Azure Blob Storage, Google Cloud Storage, server SFTP , NFS e percorsi di file locali.
Modelli MLflow
MODELLI MLFLOW: formato standard per confezionare modelli di machine learning che possono essere utilizzati in svariati strumenti a valle, ad esempio serving in tempo reale attraverso un'API REST o inferenza batch su Apache Spark.
PERSONALIZZAZIONE DEI MODELLI: si possono utilizzare modelli Python personalizzati e Custom Flavor per modelli provenienti da una libreria di ML non esplicitamente supportata dai flavor integrati di MLflow.
integrato CARATTERISTICHE DEL MODELLO: MLflow fornisce diverse versioni standard che potrebbero essere utili nelle tue applicazioni, come funzioni Python e R, Hugging Face, OpenAI e LangChain, PyTorch, Spark MLlib, TensorFlow e ONNX.
STRUMENTI DI SVILUPPO INTEGRATI: implementazione veloce su Databricks tramite Apache Spark UDF per una macchina locale o molti altri ambienti di produzione, come Microsoft Azure ML, Amazon SageMaker e creazione di immagini Docker per l'implementazione.
Registro dei modelli MLflow
repository CENTRALE: registra i modelli MLflow con il MLflow Model Registry. Un modello registrato ha un nome, una versione, un'area e altri metadati univoci.
GESTIONE DELLE VERSIONI DEI MODELLI: tracciamento automatico delle versioni dei modelli registrati quando vengono aggiornati.
STADIO DEL MODELLO: a ogni versione del modello può essere assegnato uno stadio predefinito o personalizzato, come “Staging” e “Production”, per indicare la fase del ciclo di vita di un modello.
INTEGRAZIONE DEL FLUSSO DI LAVORO CI/CD: registra i cambiamenti di stadio, richiedi, revisiona e approva le modifiche nell'ambito delle pipeline CI/CD per migliorare il controllo e la governance.
CAMBIAMENTI DI STATO DEL MODELLO: registra nuovi eventi o modifiche di registrazione come attività che memorizzano automaticamente utenti, modifiche e altri metadati sotto forma di commenti.
Server delle distribuzioni MLflow
GOVERNARE L'ACCESSO A LLMS: gestire le credenziali SaaS LLM.
COSTI DI CONTROLLO: Imposta i limiti di velocità.
STANDARDIZZARE LE INTERAZIONI LLM : Experiment diversi LLM OSS/SaaS con interfacce di input/output standard per diverse attività: completamenti, chat, incorporamenti.
Progetti MLflow
PROGETTI MLFLOW: i progetti MLflow consentono di specificare l'ambiente software utilizzato per eseguire il codice. MLflow supporta attualmente i seguenti ambienti di progetto: ambiente Conda, ambiente contenitori Docker e ambiente di sistema. Qualsiasi repository Git o directory locale può essere trattato come un progetto MLflow.
MODALITÀ DI ESECUZIONE REMOTA: i progetti MLflow possono essere eseguiti da sorgenti Git o locali da remoto su cluster Databricks utilizzando l'interfaccia della linea di comando (CLI) di Databricks per scalare velocemente il codice.
MLflow Recipes
AVVIO SEMPLIFICATO DEI PROGETTI: MLflow Recipes fornisce componenti connessi pronti all'uso per costruire e implementare modelli di ML.
ITERAZIONE ACCELERATA DEI MODELLI: MLflow Recipes crea passaggi standardizzati e riutilizzabili per l'iterazione dei modelli, rendendo il processo più veloce e meno costoso.
PASSAGGI AUTOMATIZZATI FRA I TEAM: la struttura prescrittiva ("opinionated") mette a disposizione codice modularizzato pronto per la produzione, consentendo un passaggio automatico dalla sperimentazione alla produzione.
Leggi la sezione dedicata alle novità di prodotto di Azure Databricks e AWS per scoprire le nostre funzionalità più recenti.
Offerte MLflow a confronto
Open Source MLflow | Managed MLflow on Databricks | |
---|---|---|
Monitoraggio di esperimenti | ||
API di tracciamento di MLflow | ||
Server di tracciamento di MLflow | Hosting interno | Completamente gestito |
Integrazione con notebook | ||
Integrazione con flussi di lavoro | ||
Progetti riproducibili | ||
Progetti MLflow | ||
Integrazione con Git e Conda | ||
Cloud/cluster scalabili per esecuzione di progetti | ||
Gestione dei modelli | ||
Registro dei modelli MLflow | ||
Gestione delle versioni dei modelli | ||
Transizione di fase basata su ACL | ||
Integrazione con flussi di lavoro CI/CD | ||
Implementazione flessibile | ||
Inferenza batch integrata | ||
Modelli MLflow | ||
Analisi in streaming integrata | ||
Sicurezza e gestione | ||
Alta disponibilità | ||
Aggiornamenti automatici | ||
Controllo degli accessi per ruoli |
Come funziona
MLflow è un set leggero di API e interfacce utente che può essere utilizzato con qualsiasi framework di ML lungo tutto il flusso di lavoro di ML. Comprende quattro componenti: MLflow Tracking, MLflow Projects, MLflow Models e MLflow Model Registry
Managed MLflow su Databricks
Managed MLflow su Databricks è una versione completamente gestita di MLflow che fornisce ai professionisti la riproducibilità e la gestione Experiment su Databricks Notebook, Job e archivi dati, con l'affidabilità, la sicurezza e la scalabilità della Databricks Data Intelligence Platform.