Passa al contenuto principale

Sparklyr

Prova Databricks gratis

Che cos'è Sparklyr?

Sparklyr è un pacchetto open-source che fornisce un'interfaccia tra R e Apache Spark. In questo modo è possibile sfruttare le funzionalità di Spark in un ambiente R moderno, grazie alla capacità di Spark di interagire con dati distribuiti con una latenza minima. Sparklyr è uno strumento efficace per interfacciarsi con grandi set di dati in un ambiente interattivo. Si ha così l'opportunità di sfruttare gli strumenti familiari di R per analizzare i dati in Spark, ottenendo ricavando il meglio da entrambi. Sparklyr Tramite Sparklyr è possibile utilizzare Spark come backend per dplyr, un popolare pacchetto per la manipolazione dei dati. Sparklyr fornisce una serie di funzioni che permettono di accedere agli strumenti di Spark per la trasformazione e pre-elaborazione dei dati, oltre a interfacce per gli algoritmi distribuiti di machine learning di Spark e molto altro. Sparklyr è anche estensibile. È possibile creare pacchetti R che dipendono da Sparklyr per chiamare l'API Spark completa. Una di queste estensioni è Rsparkling di H2O, un pacchetto R compatibile con l'algoritmo machine learning di H2O.

Caratteristiche salienti di Sparklyr:

  • I dati Spark possono essere manipolati interattivamente utilizzando dplyr e SQL (tramite DBI).
  • I set di dati Spark possono essere filtrati e aggregati e successivamente portati in R per essere analizzati.
  • È possibile orchestrare un machine learning distribuito da R utilizzando Spark MLlib o H2O SparkingWater.
  • Gli utenti di Sparklyr possono generare estensioni che chiamano l'API Spark completa e forniscono interfacce ai pacchetti Spark.
  • Lo strumento Sparklyr offre un backend dplyr completo, utile per la manipolazione, l'analisi e la visualizzazione dei dati.
  • I dati vengono caricati in DataFrame Spark da varie posizioni, come frame di dati R locali, tabelle Hive e file, CSV, JSON e Parquet.
  • Sparklyr è in grado di connettersi sia a istanze locali di Spark sia a cluster Spark remoti.


Risorse aggiuntive

Torna al Glossario