Sparklyr
O que é o Sparklyr?
O Sparklyr é um pacote de código aberto que fornece uma interface entre R e Apache Spark. Agora, você pode aproveitar os recursos do Spark em um ambiente R moderno, graças à capacidade do Spark de interagir com dados distribuídos com pouca latência. O Sparklyr é uma ferramenta eficaz para interface com grandes conjuntos de dados em um ambiente interativo. Dessa forma, você pode se beneficiar das ferramentas familiares do R para analisar dados no Spark, obtendo o melhor dos dois mundos. Com o Sparklyr, você pode usar o Spark como backend do dplyr, um pacote popular de manipulação de dados. O Sparklyr fornece uma série de funções que permitem acessar as ferramentas do Spark para transformar/pré-processar dados. Além disso, ele oferece interfaces para os algoritmos de machine learning distribuídos do Spark e muito mais. O Sparklyr também é extensível. É possível criar pacotes R que dependem do Sparklyr para chamar a API Spark completa. Uma dessas extensões é o Rsparkling do H2O, um pacote R compatível com o algoritmo de machine learning do H2O.
Destaques principais do Sparklyr:
- Os usuários podem manipular interativamente os dados do Spark usando dplyr e SQL (via DBI).
- Os conjuntos de dados do Spark podem ser filtrados, agregados e depois trazidos para R para serem analisados.
- Você poderá orquestrar o machine learning distribuído a partir do R usando o Spark MLLib ou o H2O SparkingWater.
- Os usuários do Sparklyr podem gerar extensões que chamam a API Spark completa e fornecer interfaces para pacotes do Spark.
- A ferramenta Sparklyr oferece um backend exaustivo do dplyr, útil em caso de manipulação, análise e visualização de dados
- Carrega dados em DataFrames Spark de vários locais, como quadros de dados R locais, tabelas Hive, CSV, JSON e arquivos Parquet.
- O Sparklyr consegue se conectar a instâncias locais do Spark, bem como a clusters remotos do Spark