Apache Spark™

O Apache Spark é um mecanismo de análise unificado rápido para big data e machine learning. Originalmente desenvolvido na UC Berkeley em 2009.

O maior projeto de código aberto no processamento de dados.

Desde o seu lançamento, o Apache Spark, o mecanismo de análise unificado, teve uma rápida adoção por empresas em diversos setores. Gigantes da internet, como Netflix, Yahoo e eBay, implementaram o Spark em grande escala, processando coletivamente vários petabytes de dados em clusters de mais de 8.000 nós. Ele se tornou rapidamente a maior comunidade de código aberto em big data, com mais de 1000 colaboradores de mais de 250 organizações.

A equipe que iniciou o projeto de pesquisa Spark na UC Berkeley fundou a Databricks em 2013.

O Apache Spark é 100% código aberto, hospedado na Apache Software Foundation independente do fornecedor. Na Databricks, estamos totalmente comprometidos em manter este modelo de desenvolvimento aberto. Juntamente com a comunidade do Spark, a Databricks continua a contribuir fortemente para o projeto Apache Spark, por meio do desenvolvimento e da divulgação da comunidade.

Assista ao vídeo

What is Apache Spark - Benefits of Apache Spark

Speed

Engineered from the bottom-up for performance, Spark can be 100x faster than Hadoop for large scale data processing by exploiting in memory computing and other optimizations. Spark is also fast when data is stored on disk, and currently holds the world record for large-scale on-disk sorting.

Ease of Use

Spark has easy-to-use APIs for operating on large datasets. This includes a collection of over 100 operators for transforming data and familiar data frame APIs for manipulating semi-structured data.

A Unified Engine

Spark comes packaged with higher-level libraries, including support for SQL queries, streaming data, machine learning and graph processing. These standard libraries increase developer productivity and can be seamlessly combined to create complex workflows.

Experimente o Apache Spark na nuvem da Databricks gratuitamente

A plataforma Unified Analytics da Databricks oferece desempenho 5x melhor em relação ao Spark de código aberto, notebooks colaborativos, fluxos de trabalho integrados e segurança empresarial — tudo isso em uma plataforma de nuvem totalmente gerenciada.

Experimente Databricks

O projeto Apache Spark de código aberto pode ser baixado aqui