Spark su host
Che cosa significa Spark su host?
Originariamente costruito all'Università di Berkeley nel 2009, Apache Spark è un veloce motore di calcolo distribuito pensato per i Big Data che assicura velocità, facilità d'uso e funzionalità analitiche avanzate. Fornisce API di alto livello in Scala, Java, Python e R oltre a un motore ottimizzato che supporta l'elaborazione di grafici per l'analisi dei dati. Inoltre, supporta anche diversi altri strumenti come Spark SQL per SQL e DataFrames, MLlib per il machine learning, GraphX per l'elaborazione di grafici e Spark Streaming per l'elaborazione dei flussi di dati.
Spark offre due modalità di esplorazione dei dati:
- Interattiva
- Batch
Per semplificare l'interazione con l'utente finale, Spark viene fornito alle organizzazioni anche in una piattaforma dati unificata su host. In mancanza di un accesso diretto alle risorse Spark da parte delle applicazioni remote, l'utente doveva affrontare un percorso più lungo per arrivare alla produzione. Per superare questo ostacolo, sono stati creati servizi che consentono alle applicazioni remote di connettersi in modo efficiente a un cluster Spark tramite un'API REST da qualsiasi luogo. Queste interfacce supportano l'esecuzione di frammenti di codice o programmi in un contesto Spark che viene eseguito localmente o in Apache Hadoop YARN. Facilitando l'interazione tra Spark e i server applicativi, le interfacce di Spark su host offrono soluzioni chiavi in mano, semplificando l'architettura richiesta dalle app interattive per web e mobile.
I servizi Spark su host offrono le seguenti funzionalità:
- Supporto interattivo per Scala, Python e R
- Invio batch in Scala, Java, Python
- Condivisione dello stesso server tra più utenti
- Possibilità di inviare job da qualsiasi luogo tramite REST
- Nessuna modifica al codice dei programmi
Le organizzazioni possono ora superare facilmente i colli di bottiglia che ostacolano la loro capacità di operazionalizzare Spark per concentrarsi sull'acquisizione del valore promesso dai Big Data.