Spark gerenciado
O que é o Spark gerenciado?
Um serviço Spark gerenciado permite aproveitar as ferramentas de dados de código aberto para processamento em lotes, queries, streaming e machine learning. Ao usar essa automação, você poderá criar rapidamente clusters sob demanda, gerenciá-los com facilidade e desativá-los quando a tarefa for concluída. Os usuários também podem dimensionar clusters de acordo com a carga de trabalho, requisitos de desempenho ou com base nos recursos existentes. Além disso, você terá acesso a clusters do Spark totalmente gerenciados, que podem ser dimensionados dinamicamente para cima e para baixo em apenas alguns segundos. E isso pode ser feito mesmo enquanto os jobs estão sendo processados. Além disso, os usuários poderão desativar clusters quando não precisarem mais deles, o que economiza dinheiro. Os provedores do Spark gerenciado criam clusters temporais em vez de fazer disposições e reter um cluster para todos os seus jobs. Normalmente, eles usam um cluster de máquinas com um nó mestre e workers. As organizações podem se concentrar na extração de valor de seus dados em vez de gastar seus recursos em operações.
Vantagens de usar um serviço Spark gerenciado:
Gerenciamento automatizado de clusters
A implantação, o registro e o monitoramento gerenciados de acordo com as necessidades do seu job específico permitem se concentrar nos dados, e não no cluster. Seus clusters serão estáveis, escaláveis e rápidos...
Clusters redimensionáveis
A criação e a configuração de clusters do Spark consomem muitos recursos, mas você não precisa mais se preocupar com isso, pois os clusters podem ser criados e dimensionados rapidamente. Os nós são encerrados quando não são mais necessários. Tudo é feito conforme a necessidade
Ferramentas para desenvolvedores
Geralmente são fornecidas várias maneiras de gerenciar um cluster.
Configuração automática ou manual
O hardware e o software em clusters são configurados automaticamente, permitindo também o controle manual.
Simplicidade de gerenciamento
Você não precisará mais enfatizar o gerenciamento do cluster ou a alocação de recursos e fazer qualquer priorização por meio de ferramentas como o YARN Resource Manager.
Econômico em termos de custo
Os usuários pagam apenas pelos recursos de compute que são consumidos durante o processo.