Nos últimos meses, tornamos os pipelines DLT mais rápidos, inteligentes e fáceis de gerenciar em escala. O DLT agora oferece uma base simplificada e de alto desempenho para a construção e operação de pipelines de dados confiáveis em qualquer escala.
Primeiro, estamos entusiasmados em anunciar que as pipelines DLT agora se integram totalmente ao Unity Catalog (UC). Isso permite que os usuários leiam e escrevam em vários catálogos e esquemas, enquanto aplicam consistentemente a Segurança em Nível de Linha (RLS) e a Máscara de Coluna (CM) em toda a Plataforma de Inteligência de Dados Databricks.
Além disso, estamos animados em apresentar uma série de melhorias recentes que abrangem desempenho, observabilidade, e suporte ao ecossistema que tornam o DLT a ferramenta de pipeline preferida para equipes que buscam desenvolvimento ágil, operações automatizadas e desempenho confiável.
Continue lendo para explorar essas atualizações, ou clique em tópicos individuais para aprofundar:
"A integração do DLT com o Catálogo Unity revolucionou nossa engenharia de dados, fornecendo uma estrutura robusta para ingestão e transformação. Sua abordagem declarativa permite fluxos de trabalho escaláveis e padronizados em uma configuração descentralizada, mantendo uma visão geral centralizada. Governança aprimorada, controle de acesso refinado e linhagem de dados garantem uma gestão de pipeline segura e eficiente. A nova capacidade de publicar em vários catálogos e esquemas a partir de um único pipeline DLT simplifica ainda mais a gestão de dados e reduz custos."— Maarten de Haas, Arquiteto de Produto, Heineken International
A integração do DLT com o UC garante que os dados sejam gerenciados de forma consistente em várias etapas do pipeline de dados, proporcionando pipelines mais eficientes, melhor linhagem e conformidade com requisitos regulatórios, e operações de dados mais confiáveis. As principais melhorias nesta integração incluem:
Para simplificar o gerenciamento de dados e otimizar o desenvolvimento do pipeline, o Databricks agora permite a publicação de tabelas em vários catálogos e esquemas dentro de um único pipeline DLT. Esta melhoria simplifica a sintaxe e elimina a necessidade da palavra-chave LIVE, além de reduzir os custos de infraestrutura, tempo de desenvolvimento e carga de monitoramento, ajudando os usuários a consolidar facilmente vários pipelines em um. Saiba mais no post detalhado do blog.
A integração do DLT com o Catálogo Unity também inclui controle de acesso refinado com segurança em nível de linha (RLS) e máscara de coluna (CM) para conjuntos de dados publicados por pipelines DLT. Administradores podem definir filtros de linha para restringir a visibilidade dos dados no nível da linha e máscaras de coluna para proteger dinamicamente informações sensíveis, garantindo forte governança de dados, segurança e conformidade.
Existem vários exemplos de funç ões definidas pelo usuário SQL (UDF) de como definir essas políticas na documentação.
Mover pipelines DLT do Hive Metastore (HMS) para o Unity Catalog (UC) simplifica a governança, aumenta a segurança e permite suporte a vários catálogos. O processo de migração é simples - as equipes podem clonar pipelines existentes sem interromper as operações ou reconstruir configurações. O processo de clonagem copia as configurações do pipeline, atualiza as visualizações materializadas (MVs) e as tabelas de streaming (STs) para serem gerenciadas pela UC, e garante que as STs retomem o processamento sem perda de dados. As melhores práticas para essa migração estão totalmente documentadas aqui.
Uma vez que a migração esteja completa, os pipelines originais e novos podem funcionar de forma independente, permitindo que as equipes validem a adoção do UC em seu próprio ritmo. Esta é a melhor abordagem para migrar pipelines DLT hoje. Embora exija cópia de dados, ainda este ano planejamos introduzir uma API para migração sem cópia - fique atento para atualizações.
Fizemos melhorias significativas no desempenho do DLT nos últimos meses, possibilitando um desenvolvimento mais rápido e uma execução de pipeline mais eficiente.
Primeiro, aceleramos a fase de validação do DLT em 80%*. Durante a validação, o DLT verifica esquemas, tipos de dados, acesso à tabela e mais para detectar problemas antes que a execução comece. Em segundo lugar, reduzimos o tempo necessário para inicializar o cálculo serverless para o DLT serverless.
Como resultado, o desenvolvimento iterativo e a depuração de pipelines DLT são mais rápidos do que antes.
*Em média, de acordo com benchmarks internos
Com base na API DLT Sink, estamos expandindo ainda mais a flexibilidade das Tabelas Delta Live com o suporte foreachBatch. Esta melhoria permite aos usuários escrever dados de streaming para qualquer sink compatível com batch, desbloqueando novas possibilidades de integração além de Kafka e tabelas Delta.
Com foreachBatch, cada micro-lote de uma consulta de streaming pode ser processado usando transformações em lote, permitindo casos de uso poderosos como operações MERGE INTO no Delta Lake e escrita em sistemas que não possuem suporte nativo para streaming, como Cassandra ou Azure Synapse Analytics. Isso amplia o alcance dos Sinks DLT, garantindo que os usuários possam rotear dados de forma contínua em todo o seu ecossistema. Você pode revisar mais detalhes na documentação aqui.
Os usuários agora podem acessar o histórico de consultas para pipelines DLT, facilitando a depuração de consultas, identificação de gargalos de desempenho e otimização de execuções de pipeline. Disponível em Visualização Pública, este recurso permite que os usuários revisem detalhes de execução de consulta através da interface de Histórico de Consultas, notebooks ou a interface do pipeline DLT. Ao filtrar por consultas específicas do DLT e visualizar perfis de consulta detalhados, as equipes podem obter insights mais profundos sobre o desempenho do pipeline e melhorar a eficiência.
O registro de eventos agora pode ser publicado no UC como uma tabela Delta, fornecendo uma maneira poderosa de monitorar e depurar pipelines com maior facilidade. Ao armazenar dados de eventos em um formato estruturado, os usuários podem utilizar SQL e outras ferramentas para analisar logs, rastrear desempenho e solucionar problemas de forma eficiente.
Também introduzimos Executar Como para pipelines DLT, permitindo que os usuários especifiquem o principal de serviço ou conta de usuário sob o qual um pipeline é executado. Desacoplar a execução do pipeline do proprietário do pipeline aumenta a segurança e a flexibilidade operacional.
Por fim, os usuários agora podem filtrar pipelines com base em vários critérios, incluindo identidades e tags de executar como. Esses filtros permitem um gerenciamento e rastreamento de pipeline mais eficientes, garantindo que os usuários possam encontrar e gerenciar rapidamente os pipelines de seu interesse.
Essas melhorias, coletivamente, aprimoram a observabilidade e a gerenciabilidade dos pipelines, facilitando para as organizações garantir que seus pipelines estejam operando conforme o esperado e alinhados com seus critérios operacionais.
Agora estamos introduzindo a capacidade de ler Tabelas de Streaming (STs) e Visualizações Materializadas (MVs) no modo de acesso dedicado. Este recurso permite que os proprietários de pipelines e usuários com os privilégios SELECT necessários consultem STs e MVs diretamente de seus clusters dedicados pessoais.
Esta atualização simplifica os fluxos de trabalho, abrindo o acesso ST e MV para clusters atribuídos que ainda não foram atualizados para clusters compartilhados. Com acesso a STs e MVs no modo de acesso dedicado, os usuários podem trabalhar em um ambiente isolado - ideal para depuração, desenvolvimento e exploração pessoal de dados.
Os usuários agora podem ler um feed de dados de alteração (CDF) de STs direcionados pelo comando APPLY CHANGES
. Esta melhoria simplifica o rastreamento e processamento de alterações em nível de linha, garantindo que todas as modificações de dados sejam capturadas e tratadas de forma eficaz.
Além disso, Liquid Clustering agora é suportado para STs e MVs dentro do Databricks. Este recurso aprimora a organização e a consulta de dados, gerenciando dinamicamente o agrupamento de dados de acordo com colunas especificadas, que são otimizadas durante os ciclos de manutenção do DLT, normalmente realizados a cada 24 horas.
Ao alinhar as melhores práticas para engenharia de dados inteligente com a governança unificada do lakehouse, a integração DLT/UC simplifica a conformidade, aprimora a segurança dos dados e reduz a complexidade da infraestrutura. As equipes agora podem gerenciar pipelines de dados com controles de acesso mais fortes, melhor observabilidade e maior flexibilidade—sem sacrificar o desempenho. Se você está usando DLT hoje, esta é a melhor maneira de garantir que seus pipelines estejam preparados para o futuro. Se não, esperamos que esta atualização represente para você um passo significativo em nosso compromisso de maximizar a experiência do usuário DLT para as equipes de dados.
Explore nossa documentação para começar, e fique atento para as melhorias do roadmap listadas acima. Adoraríamos receber seu feedback!
(This blog post has been translated using AI-powered tools) Original Post