Passa al contenuto principale

Apache Spark™

Apache Spark è un motore di analisi unificato ultraveloce per Big Data e machine learning, sviluppato originariamente all'Università di Berkeley nel 2009.

largest open source apache spark image

Il più grande progetto open-source per l'elaborazione di dati.

Dal suo rilascio, Apache Spark, il motore di analisi unificato, è stato adottato rapidamente da aziende in tutti i settori. Colossi di Internet come Netflix, Yahoo e eBay hanno implementato Spark su larghissima scala, elaborando collettivamente svariati petabyte di dati su cluster con oltre 8.000 nodi. Dal progetto è nata in poco tempo la più grande community open-source nel mondo dei Big Data, con più di 1.000 contributori appartenenti a oltre 250 organizzazioni.

Il team che ha avviato il progetto di ricerca Spark all'Università di Berkeley ha successivamente fondato Databricks nel 2013.

Apache Spark è 100% open-source, gestito dalla Apache Software Foundation, un'entità indipendente da qualsiasi vendor. In Databricks siamo totalmente impegnati a mantenere questo modello di sviluppo aperto. Insieme alla community di Spark, Databricks continua a dare un grande contributo al progetto Apache Spark con attività di sviluppo e formazione della community.

Che cos'è Apache Spark - Vantaggi di Apache Spark

Velocità

Progettato fin dall'inizio nell'ottica delle prestazioni, Spark può raggiungere velocità 100 volte superiori ad Hadoop per l'elaborazione di dati su larga scala, sfruttando il calcolo in memoria e altre ottimizzazioni. Spark è veloce anche quando i dati sono conservati su disco, tanto che attualmente detiene il record mondiale di classificazione dei dati su disco su larga scala.

Facilità d'uso

Spark dispone di API facili da usare per operare su grandi set di dati, fra cui una collezione di oltre 100 operatori per trasformare dati e API data frame familiari per manipolare dati semi-strutturati.

Motore unificato

Spark viene fornito completo di librerie di alto livello, incluso il supporto per query SQL, dati in streaming, machine learning ed elaborazione di grafici. Queste librerie standard aumentano la produttività degli sviluppatori e possono essere combinate fra loro per creare flussi di lavoro complessi.

Prova gratuita di Apache Spark sul cloud di Databricks

Databricks Unified Analytics Platform offre prestazioni cinque volte superiori rispetto a Spark open-source, notebook collaborativi, flussi di lavoro integrati e sicurezza aziendale... tutto su una piattaforma in cloud completamente gestita.

Il progetto open-source Apache Spark può essere scaricato qui