Delta Lake UniForm
Armazenamento de alto desempenho e independente de formato para seu lakehouse de dados abertos
O Delta Lake UniForm unifica os dados em seu lakehouse, em todos os formatos e tipos, para todas as suas cargas de trabalho de analítica e IA.
Aberto em todos os formatos
Use suas ferramentas de analítica e IA existentes, independentemente do formato de dados abertos. O UniForm traduz automática e instantaneamente entre formatos, para que você possa manter uma única cópia dos dados de origem e ainda usar seu cliente Iceberg ou Hudi favorito para ler suas tabelas Delta por meio do endpoint do Unity Catalog. Com o UniForm, seus dados permanecem portáteis, sem dependência do provedor.
Conectado entre ecossistemas
O Delta Lake tem um vasto ecossistema de conectores e é compatível com vários frameworks e linguagens. O Delta Sharing é o primeiro protocolo aberto do setor para compartilhamento seguro de dados, facilitando compartilhar dados com outras organizações, independentemente de onde os dados estejam. A integração nativa com o Unity Catalog permite gerenciar e auditar centralmente os dados compartilhados entre as organizações. Ela também permite que você compartilhe com confiança ativos de dados com fornecedores e parceiros para uma melhor coordenação dos seus negócios, atendendo aos critérios de segurança e compliance. E, por meio de integrações com as principais ferramentas e plataformas, você pode visualizar, consultar, enriquecer e governar dados compartilhados de suas ferramentas de escolha.
Desempenho rápido e confiável
O Delta Lake oferece grande escala e velocidade, com cargas de dados e consultas sendo executadas até 1,7 vez mais rápido do que com outros formatos de armazenamento. Usado na produção por mais de 10.000 clientes, o Delta Lake escala para processar mais de 40 milhões de eventos por segundo em um único pipeline. Mais de 5 exabytes/dia são processados usando o Delta Lake.
Quando o UniForm está habilitado em tabelas Delta Lake, a gravação de outros metadados de formato não compromete o desempenho da consulta. As tabelas UniForm oferecem desempenho de leitura equivalente ao dos formatos proprietários em seus mecanismos nativos.
Orientado por IA para melhor relação preço/desempenho
A Databricks Data Intelligence Platform otimiza seus dados com base em seus padrões de uso. Aprimoramentos de desempenho orientados por IA — desenvolvidos pelo DatabricksIQ, o mecanismo de inteligência de dados para Databricks — administram, configuram e ajustam automaticamente seus dados.
O clustering líquido oferece o desempenho de uma tabela bem ajustada e particionada sem as dores de cabeça tradicionais que vêm com o particionamento, como a preocupação com a possibilidade de particionar colunas de alta cardinalidade ou reescritas caras ao alterar colunas de partição. O resultado são tabelas rápidas e bem agrupadas com configuração mínima.
A otimização preditiva otimiza automaticamente seus dados para obter o melhor desempenho e preço. Ela aprende com seus padrões de uso de dados, cria um plano para as otimizações corretas a serem realizadas e, em seguida, executa essas otimizações em uma infraestrutura serverless hiperotimizada.
Segurança e governança em escala
O Delta Lake reduz o risco pois permite uma governança de dados com base em controles de acesso refinados, o que, tipicamente, não é possível em data lakes. Você pode atualizar com rapidez e precisão os dados em seu data lake para cumprir regulamentos como a GDPR e manter uma melhor governança de dados por meio de logs de auditoria. Esses recursos são integrados nativamente e aprimorados no Databricks como parte do Unity Catalog, o primeiro catálogo de dados multicloud para o lakehouse.
Data engineering automatizada e confiável
Simplifique sua engenharia de dados com Delta Live Tables — uma maneira fácil de criar e gerenciar pipelines de dados para obter dados novos e de alta qualidade no Delta Lake. As Delta Live Tables ajudam as equipes de data engineering a simplificar o desenvolvimento e o gerenciamento de ETL por meio da criação de pipelines declarativos, que aumentam a confiabilidade dos dados facilitam o estabelecimento de operações de produção em escala de nuvem, auxiliando na construção da fundação do lakehouse.
Casos de uso
BI nos seus dados
Forneça aos seus analistas novos dados em tempo real e obtenha insights imediatos sobre sua empresa graças às cargas de trabalho de Business Intelligence executadas diretamente no seu data lake. O Delta Lake permite que você aproveite uma arquitetura de lakehouse multi-cloud que oferece desempenho de armazenamento de dados com custos próximos do data lake para uma relação preço/desempenho até 6 vezes melhor para cargas de trabalho SQL do que data warehouses tradicionais em nuvem.
Unifique batch e streaming
Execute operações em batch e streaming em uma arquitetura simplificada, evitando sistemas complexos e redundantes e problemas operacionais. No Delta Lake, uma tabela é uma tabela em batch, mas também uma fonte de streaming e um coletor de dados. A ingestão de dados de streaming, o preenchimento histórico em batch e as queries interativas funcionam sem nenhum esforço extra, integrando-se diretamente ao Spark Structured Streaming.
Atenda às necessidades regulatórias
O Delta Lake elimina desafios na ingestão de dados mal formados, a dificuldade na exclusão de dados por motivos de conformidade e os problemas na operação de captura de dados de alteração. Com suporte a transações ACID em seu data lake, o Delta Lake garante que todas as operações sejam totalmente bem-sucedidas ou canceladas para novas tentativas posteriores, sem exigir a criação de novos pipelines de dados. Além disso, o Delta Lake registra todas as transações anteriores em seu data lake, facilitando assim o acesso a versões anteriores de seus dados para atender de maneira confiável aos padrões de conformidade, como GDPR e CCPA.
Descubra mais
Clientes
“A Databricks nos ajudou a diminuir nosso tempo de ida ao mercado, melhorar a utilização de analytics e de nossa operação para atender às novas demandas do setor de saúde.”
– Peter James, arquiteto-chefe, Healthdirect Australia
“Aproveitando o Databricks e o Delta Lake, já conseguimos democratizar os dados em escala e, ao mesmo tempo, reduzir o custo de execução de cargas de trabalho de produção em 60%. Isso nos poupou milhões de dólares.”
— Steve Pulec, diretor de tecnologia, YipitData
“O Delta Lake provê as transações ACID que simplificam as operações de pipeline para melhorar a confiabilidade e a consistência dos dados. Ao mesmo tempo, recursos como cache e indexação automática permitem acesso eficiente e de alto desempenho aos dados.”
— Lara Minor, gerente sênior de dados empresariais, Columbia Sportswear
“O Delta Lake criou uma abordagem simplificada para gerenciar pipelines de dados. Isso nos levou a reduzir custos operacionais e, ao mesmo tempo, acelerar a produção de insights e análises em nossos processos de data science.”
— Parijat Dey, vice-presidente assistente de transformação e tecnologia digital, Viacom18