Databricks SQL Ano em análise (Parte I): Desempenho otimizado por IA e serverless compute
Esta é a primeira parte de uma série de blogs em que analisamos as principais áreas de progresso do Databricks SQL em 2023 e, em nossa primeira postagem, estamos nos concentrando no desempenho. O desempenho para um data warehouse é importante porque permite uma experiência de usuário mais ágil e um melhor preço/desempenho, especialmente no mundo SaaS moderno, onde o tempo de computação gera custos. Temos trabalhado arduamente para oferecer avanços de desempenho para o Databricks SQL por meio do uso de IA, reduzindo a necessidade de ajuste manual.
Desempenho otimizado por IA
Os data warehouse modernos têm configurações específicas que precisam ser ajustadas manualmente por um administrador experiente de forma contínua à medida que novos dados, mais usuários ou novos casos de uso chegam. Esses "botões" variam de como os dados são armazenados fisicamente a como a computação é utilizada e dimensionada. No último ano, aplicamos a IA para remover esses “botões” administrativos e de desempenho, em alinhamento com a visão da Databricks para uma Data Intelligence Platform:
- serverless compute é a base para o Databricks SQL, fornecendo o melhor desempenho com a computação instantânea e elástica que reduz os custos e permite que você se concentre em fornecer o máximo de valor aos seus negócios, em vez de gerenciar a infraestrutura.
- O Predictive I/O elimina o ajuste de desempenho, como a indexação, por meio da pré-busca inteligente do uso de dados da rede neural. Ele também consegue gravações mais rápidas usando técnicas de merge-on-read sem degradação de desempenho. Os primeiros clientes tiveram uma notável melhoria de 35 vezes na eficiência da pesquisa lookup, com aumentos impressionantes de desempenho de 2 a 6 vezes para operações merge e de 2 a 10 vezes para operações delete.
- A disposição automática de dados otimiza de forma inteligente o tamanho dos arquivos para oferecer o melhor desempenho automaticamente com base nos padrões de consulta. Ele auto-gerencia custos e desempenho.
- O armazenamento de resultados em cache aprimora o armazenamento em cache de resultados de consultas usando um sistema de duas camadas com um cache local e um cache remoto persistente em todos os warehouses serverless em um workspace. Esses mecanismos de cache são gerenciados automaticamente com base nos requisitos da consulta e no recurso disponível.
- Otimização preditiva(visualização pública, blogs) Databricks irá otimizar perfeitamente o tamanho dos arquivos executando os comandos OPTIMIZE, VACUUM, ANALYZE e CLUSTERING para você. Com esse recurso, a Anker Innovations se beneficiou de um aumento de 2.2x no desempenho da consulta e, ao mesmo tempo, proporcionou uma economia de 50% nos custos de armazenamento.
- Liquid clustering(visualização pública, blogs): ajusta de forma automática e inteligente a disposição dos dados à medida que novos dados chegam com base na chave clustering. Isso evita problemas de excesso ou falta de particionamento que podem ocorrer e resulta em um clustering até 2.5x mais rápido em relação ao Z-order.
Essas inovações nos permitiram fazer avanços significativos no desempenho sem aumentar a complexidade para o usuário ou os custos.
Continuação do desempenho líder da categoria e da eficiência de custos para cargas de trabalho de ETL
O Databricks SQL é, há muito tempo, o líder em termos de desempenho e eficiência de custo para workloads de ETL. Nosso investimento em recursos baseados em IA, como o Predictive IO, ajuda a manter essa posição de liderança e a aumentar as vantagens de custo à medida que os volumes de dados continuam a crescer. Isso fica evidente em nosso processamento de workloads de ETL, em que o Databricks SQL tem uma vantagem de custo de até 9 vezes em relação à concorrência das indústrias líderes (consulte o benchmark abaixo).
Fornecendo Desempenho de Baixa Latência com Concorrência para BI
Databricks SQL agora iguala as indústrias líderes em desempenho de consultas de baixa latência para números menores de usuários concorrentes (< 100) e tem desempenho 9 vezes melhor à medida que o número de usuários concorrentes (simultâneos) aumentam para mais de mil (veja o benchmark abaixo). Serverless compute também começará em poucos segundos, exatamente quando necessário, gerando uma economia substancial de custos que evita clusters em execução o tempo todo ou a realização de desligamentos manuais. Quando a demanda de workloads diminui, o SQL serverless reduz automaticamente a escala do clusters ou desliga a computação para manter os custos baixos.
O caminho a seguir com IA otimizada para data warehousing
O Databricks SQL tem governança unificada, um ecossistema rico de suas ferramentas favoritas e formatos e APIs abertos para evitar a dependência (lock-in) - tudo isso faz parte do motivo pelo qual o melhor data warehouse é um lakehouse. Se você deseja migrar seus workloads do SQL para uma arquitetura moderna, com custo otimizado, alto desempenho, serverless e perfeitamente unificada, Databricks SQL é a solução. Fale com seu representante Databricks para começar uma prova de conceito hoje mesmo e experimentar os benefícios em primeira mão. Nossa equipe está pronta para ajudá-lo a avaliar se o Databricks SQL é a escolha certa para ajudá-lo a inovar mais rapidamente com seus dados.
Para saber mais sobre como alcançamos o melhor desempenho da categoria em Databricks SQL usando otimizações orientadas por IA, assista à apresentação de Reynold Xin e Databricks SQL Serverless Under the Hood: How We Use ML to Get the Best Price/Performance do Data+IA Summit.