Apache Spark™

Apache Spark è un motore di analisi unificato ultraveloce per Big Data e machine learning, sviluppato originariamente all'Università di Berkeley nel 2009.

Il più grande progetto open-source per l'elaborazione di dati.

Dal suo rilascio, Apache Spark, il motore di analisi unificato, è stato adottato rapidamente da aziende in tutti i settori. Colossi di Internet come Netflix, Yahoo e eBay hanno implementato Spark su larghissima scala, elaborando collettivamente svariati petabyte di dati su cluster con oltre 8.000 nodi. Dal progetto è nata in poco tempo la più grande community open-source nel mondo dei Big Data, con più di 1.000 contributori appartenenti a oltre 250 organizzazioni.

Il team che ha avviato il progetto di ricerca Spark all'Università di Berkeley ha successivamente fondato Databricks nel 2013.

Apache Spark è 100% open-source, gestito dalla Apache Software Foundation, un'entità indipendente da qualsiasi vendor. In Databricks siamo totalmente impegnati a mantenere questo modello di sviluppo aperto. Insieme alla community di Spark, Databricks continua a dare un grande contributo al progetto Apache Spark con attività di sviluppo e formazione della community.

Guarda il video

What is Apache Spark - Benefits of Apache Spark

Speed

Engineered from the bottom-up for performance, Spark can be 100x faster than Hadoop for large scale data processing by exploiting in memory computing and other optimizations. Spark is also fast when data is stored on disk, and currently holds the world record for large-scale on-disk sorting.

Ease of Use

Spark has easy-to-use APIs for operating on large datasets. This includes a collection of over 100 operators for transforming data and familiar data frame APIs for manipulating semi-structured data.

A Unified Engine

Spark comes packaged with higher-level libraries, including support for SQL queries, streaming data, machine learning and graph processing. These standard libraries increase developer productivity and can be seamlessly combined to create complex workflows.

Prova gratuita di Apache Spark sul cloud di Databricks

Databricks Unified Analytics Platform offre prestazioni cinque volte superiori rispetto a Spark open-source, notebook collaborativi, flussi di lavoro integrati e sicurezza aziendale... tutto su una piattaforma in cloud completamente gestita.

Prova Databricks

Il progetto open-source Apache Spark può essere scaricato qui