Machine Learning Library (MLlib)
La bibliothèque Machine Learning Library (MLlib) d’Apache Spark est conçue pour être simple, évolutive et facile à intégrer à d’autres outils. Grâce à l’évolutivité, à la compatibilité avec plusieurs langages et à la rapidité de Spark, les data scientists peuvent se consacrer à leurs problèmes et modèles de données plutôt que d’essayer de résoudre les lourdeurs liées à la dissémination des données (infrastructure, configurations, etc.). Conçue sur une base Spark, MLlib est une bibliothèque de machine learning évolutive, composée d’algorithmes d’apprentissage communs et d’infrastructures publiques, y compris la classification, la régression, le clustering, le filtrage collaboratif, la réduction de dimensionnalité et l’identification des primitives d’optimisation sous-jacentes. MLlib peut facilement s’intégrer à d’autres composants de Spark tels que Spark SQL, Spark streaming ou DataFrames. De plus, elle peut être installée dans le Databricks Runtime. Cette bibliothèque est utilisable en Java, Scala et Python sous forme d’applications Spark, si bien que vous pouvez l’inclure dans des workflows complets. MLlib permet le prétraitement, la fusion et l’entraînement de modèles, ainsi que la réalisation de prédictions à grande échelle sur les données.Vous pouvez même utiliser des modèles formés dans MLlib pour faire des prédictions dans le streaming structuré. Spark fournit une API de machine learning sophistiquée pour effectuer diverses tâches de machine learning telles que la classification, la régression, le clustering et le deep learning.
Ressources complémentaires
- Produit Mlflow managé
- Gartner nomme Databricks parmi les leaders de son Magic Quadrant dédié aux plateformes de data science et de machine learning
- Transférer une forêt d’arbres décisionnels pour la lutte contre la fraude de scikit-learn à Spark, à l’aide de MLlib, MLflow et Jupyter
- ML en pratique | Événement virtuel
- Formation gratuite : construire et déployer un modèle de machine learning