Biblioteca de machine learning (MLlib)
A biblioteca de Machine Learning (MLlib) do Apache Spark é uma ferramenta projetada para ser simples, altamente escalável e facilmente integrada a outras ferramentas. A escalabilidade, compatibilidade de linguagem e alta velocidade do Spark permitem que os data scientists se concentrem em seus problemas e modelos de dados, em vez de resolver as complexidades que cercam os dados distribuídos (infraestrutura, configuração etc.). Criada no Spark, a MLlib é uma biblioteca escalável de machine learning que consiste em algoritmos e utilitários de aprendizado comuns, incluindo classificação, regressão, clustering, filtragem colaborativa, redução de dimensionalidade e primitivas de otimização subjacentes. O Spark MLlib se integra perfeitamente com outros componentes do Spark, como Spark SQL, Spark Streaming e DataFrame, e é instalado no Databricks Runtime. A biblioteca está disponível em Java, Scala e Python como parte das aplicações Spark e pode ser incluída em um fluxo de trabalho completo. A MLlib permite pré-processar e manipular dados, treinar modelos e fazer previsões em escala. Modelos treinados com a MLlib também podem ser usados para fazer previsões com streaming estruturado. O Spark fornece APIs avançadas de machine learning para executar uma variedade de tarefas de machine learning, desde classificação até regressão, clustering e deep learning.
Recursos adicionais
- MLflow gerenciado
- Databricks nomeada líder no Quadrante Mágico do Gartner para Plataformas de Data Science e Machine Learning
- Migrando florestas aleatórias antifraude do scikit-learn para Spark usando MLlib, MLflow e Jupyter
- ML prático | Evento virtual
- Treinamento gratuito: Criação e implantação de modelos de machine learning