Apache Spark™
O Apache Spark é um mecanismo de análise unificado rápido para big data e machine learning. Originalmente desenvolvido na UC Berkeley em 2009.
O maior projeto de código aberto no processamento de dados.
Desde o seu lançamento, o Apache Spark, o mecanismo de análise unificado, teve uma rápida adoção por empresas em diversos setores. Gigantes da internet, como Netflix, Yahoo e eBay, implementaram o Spark em grande escala, processando coletivamente vários petabytes de dados em clusters de mais de 8.000 nós. Ele se tornou rapidamente a maior comunidade de código aberto em big data, com mais de 1000 colaboradores de mais de 250 organizações.
A equipe que iniciou o projeto de pesquisa Spark na UC Berkeley fundou a Databricks em 2013.
O Apache Spark é 100% código aberto, hospedado na Apache Software Foundation independente do fornecedor. Na Databricks, estamos totalmente comprometidos em manter este modelo de desenvolvimento aberto. Juntamente com a comunidade do Spark, a Databricks continua a contribuir fortemente para o projeto Apache Spark, por meio do desenvolvimento e da divulgação da comunidade.
O que é o Apache Spark - Benefícios do Apache Spark
Velocidade
Projetado de baixo para cima para melhorar o desempenho, o Spark pode ser 100 vezes mais rápido do que o Hadoop para processamento de dados em grande escala , explorando a computação em memória e outras otimizações. O Spark também é rápido quando os dados são armazenados em disco e, atualmente, detém o recorde mundial de classificação em disco em grande escala.
Facilidade de uso
O Spark tem APIs fáceis de usar para operar em grandes conjuntos de dados. Isso inclui uma coleção de mais de 100 operadores para transformar dados e APIs familiares de data frame para manipulação de dados semiestruturados.
Mecanismo unificado
O Spark vem repleto de bibliotecas de nível superior, incluindo suporte para consultas SQL, streaming de dados, machine learning e processamento de gráficos. Essas bibliotecas padrão aumentam a produtividade do desenvolvedor e podem ser combinadas perfeitamente para criar fluxos de trabalho complexos.
Experimente o Apache Spark na nuvem da Databricks gratuitamente
A plataforma Unified Analytics da Databricks oferece desempenho 5x melhor em relação ao Spark de código aberto, notebooks colaborativos, fluxos de trabalho integrados e segurança empresarial — tudo isso em uma plataforma de nuvem totalmente gerenciada.
O projeto Apache Spark de código aberto pode ser baixado aqui