JUNE 27-30

JOIN NOW

Apache Spark

Apache Spark è un motore di analisi unificato ultraveloce per Big Data e machine learning, sviluppato originariamente all'Università di Berkeley nel 2009.

Il più grande progetto open-source per l'elaborazione di dati.

Dal suo rilascio, Apache Spark, il motore di analisi unificato, è stato adottato rapidamente da aziende in tutti i settori. Colossi di Internet come Netflix, Yahoo e eBay hanno implementato Spark su larghissima scala, elaborando collettivamente svariati petabyte di dati su cluster con oltre 8.000 nodi. Dal progetto è nata in poco tempo la più grande community open-source nel mondo dei Big Data, con più di 1.000 contributori appartenenti a oltre 250 organizzazioni.
Spark - Apache Spark

Il team che ha avviato il progetto di ricerca Spark all'Università di Berkeley ha successivamente fondato Databricks nel 2013.

Apache Spark è 100% open-source, gestito dalla Apache Software Foundation, un'entità indipendente da qualsiasi vendor. In Databricks siamo totalmente impegnati a mantenere questo modello di sviluppo aperto. Insieme alla community di Spark, Databricks continua a dare un grande contributo al progetto Apache Spark con attività di sviluppo e formazione della community.


Ecosistema Apache Spark

Spark SQL + DataFrames

Dati strutturati: Spark SQL

Molti data scientist, analisti e utenti generici di business intelligence utilizzano query SQL interattive per esplorare i dati. Spark SQL è un modulo Spark per l'elaborazione di dati strutturati, che offre un'astrazione di programmazione chiamata DataFrames e può fungere anche da motore query SQL distribuito. Il modulo consente di eseguire query Hadoop Hive non modificate con velocità fino al 100% superiori su implementazioni e dati esistenti. Inoltre, si integra strettamente con il resto dell'ecosistema Spark (ad es. integrando l'elaborazione delle query SQL con il machine learning).

Streaming

Analisi in streaming: Spark Streaming

Molte applicazioni devono avere la capacità di elaborare e analizzare non solo dati in batch, ma anche flussi di nuovi dati in tempo reale. Girando su Spark, Spark Streaming consente di realizzare applicazioni di analisi interattive e potenti su dati storici e flussi in tempo reale, ereditando da Spark la facilità d'uso e la tolleranza agli errori. Si integra direttamente con un'ampia gamma di sorgenti di dati diffuse, fra cui HDFS, Flume, Kafka e Twitter.

MLlib Machine Learning

Machine Learning: MLlib

Il machine learning si è affermato rapidamente come elemento chiave per "scavare" nei Big Data ed estrarre informazioni approfondite fruibili. Costruita su Spark, MLlib è una libreria di machine learning scalabile che offre algoritmi di alta qualità (ad es., iterazioni multiple per aumentare la precisione) e velocità fulminea (fino a 100 volte più veloce di MapReduce). La libreria è utilizzabile in Java, Scala e Python nell'ambito di applicazioni Spark, in modo che possa essere inclusa in flussi di lavoro completi.

GraphX Elaborazione di grafici

Elaborazione di grafici: GraphX

GraphX è un motore per l'elaborazione di grafici costruito su Spark che offre una modalità interattiva per costruire, trasformare e analizzare dati strutturati in forma di grafico su larga scala. GraphX è completo di una libreria di algoritmi comuni.

Spark Core API

Esecuzione generale: Spark Core

Spark Core è il motore generico sottostante alla piattaforma Spark, sul quale sono basate tutte le altre funzionalità. Fornisce capacità di calcolo in memoria per offrire velocità, un modello di esecuzione generalizzato per supportare svariate applicazioni, e API Java, Scala e Python per facilitare lo sviluppo.

R
sql
Python
scala
Java

Che cos'è Apache Spark - Vantaggi di Apache Spark

Velocità

Progettato fin dall'inizio nell'ottica delle prestazioni, Spark può raggiungere velocità 100 volte superiori ad Hadoop per l'elaborazione di dati su larga scala sfruttando il calcolo in memoria e altre ottimizzazioni. Spark è veloce anche quando i dati sono conservati su disco, tanto che attualmente detiene il record mondiale di classificazione dei dati su disco su larga scala.

Facilità d'uso

Spark dispone di API facili da usare per operare su grandi set di dati, fra cui una collezione di oltre 100 operatori per trasformare dati e API data frame familiari per manipolare dati semi-strutturati.

Motore unificato

Spark viene fornito completo di librerie di alto livello, incluso il supporto per query SQL, dati in streaming, machine learning ed elaborazione di grafici. Queste librerie standard aumentano la produttività degli sviluppatori e possono essere combinate fra loro per creare flussi di lavoro complessi.

Prova gratuita di Apache Spark sul cloud di Databricks

Databricks Unified Analytics Platform offre prestazioni cinque volte superiori rispetto a Spark open-source, notebook collaborativi, flussi di lavoro integrati e sicurezza aziendale... tutto su una piattaforma in cloud completamente gestita.

Prova Databricks

Il progetto open-source Apache Spark può essere scaricato qui