Machine Learning Library (MLlib)
Machine Learning Library (MLlib) di Apache Spark è progettata nell'ottica della semplicità, della scalabilità e della facilità di integrazione con altri strumenti. Grazie alla scalabilità, alla compatibilità del linguaggio e alla velocità di Spark, i data scientist si possono concentrare sui loro problemi di gestione dei dati e modelli invece di risolvere le complessità dei dati distribuiti (come infrastruttura, configurazioni e così via). Basata su Spark, MLlib è una libreria di machine learning scalabile composta da comuni algoritmi e utility di machine learning per classificazione, regressione, clustering, filtraggio collaborativo, riduzione della dimensionalità e primitive di ottimizzazione sottostanti. Spark MLLib si integra direttamente con altri componenti Spark come Spark SQL, Spark Streaming e DataFrames, ed è installata nel runtime di Databricks. La libreria è utilizzabile in Java, Scala e Python nell'ambito di applicazioni Spark, in modo che possa essere inclusa in flussi di lavoro completi. MLlib consente attività di pre-elaborazione, munging (trasformazione dei dati grezzi) e addestramento di modelli, nonché di fare previsioni sui dati su larga scala. I modelli addestrati in MLlib possono essere utilizzati anche per fare previsioni in Structured Streaming. Spark offre un'API di machine learning sofisticata per eseguire svariati compiti di machine learning, dalla classificazione alla regressione, dal clustering al deep learning.
Risorse aggiuntive
- Prodotto Managed MLflow
- Gartner nomina Databricks fra i leader del Magic Quadrant per le piattaforme di data science e machine learning
- Trasferimento di una foresta casuale antifrode da scikit-learn a Spark con MLlib, MLflow e Jupyter
- Practical ML | Evento virtuale
- Formazione gratuita: Costruire e implementare modelli di machine learning