Atualização 2025 DLT: Pipelines de dados inteligentes e totalmente governados

Expansão da integração do Catálogo Unity, prontidão empresarial e compatibilidade com lakehouse

2025 DLT Update: Intelligent, fully governed data pipelines

Published: April 24, 2025

Produto9 min de leitura

por Michael Armbrust, Zoé Durand, Eun-Gyu Kim, Jonathan Chang e Matt Jones

Summary

Governança unificada e segurança - A integração do DLT com o Unity Catalog agora está geralmente disponível, permitindo controle de acesso refinado, linhagem de dados, segurança em nível de linha e aplicação de conformidade.
Gerenciamento de pipeline simplificado – Publique em vários catálogos e esquemas a partir de um único pipeline DLT, reduzindo a complexidade e os custos de infraestrutura.
Maior observabilidade & flexibilidade - Nova funcionalidade de monitoramento e observabilidade, bem como migração do Hive Metastore, melhoram a eficiência e a escalabilidade.

Nos últimos meses, tornamos os pipelines DLT mais rápidos, inteligentes e fáceis de gerenciar em escala. O DLT agora oferece uma base simplificada e de alto desempenho para a construção e operação de pipelines de dados confiáveis em qualquer escala.

Primeiro, estamos entusiasmados em anunciar que as pipelines DLT agora se integram totalmente ao Unity Catalog (UC). Isso permite que os usuários leiam e escrevam em vários catálogos e esquemas, enquanto aplicam consistentemente a Segurança em Nível de Linha (RLS) e a Máscara de Coluna (CM) em toda a Plataforma de Inteligência de Dados Databricks.

Além disso, estamos animados em apresentar uma série de melhorias recentes que abrangem desempenho, observabilidade, e suporte ao ecossistema que tornam o DLT a ferramenta de pipeline preferida para equipes que buscam desenvolvimento ágil, operações automatizadas e desempenho confiável.

Continue lendo para explorar essas atualizações, ou clique em tópicos individuais para aprofundar:

Integração do Catálogo Unity
Melhorias de Latência e Desempenho
Expandindo Sinks DLT: Escreva para qualquer destino com foreachBatch
Melhorias na Observabilidade DLT
Leia Tabelas de Streaming e Visualizações Materializadas no Modo de Acesso Dedicado
Outras Melhorias & Roadmap

Integração do Catálogo Unity

"A integração do DLT com o Catálogo Unity revolucionou nossa engenharia de dados, fornecendo uma estrutura robusta para ingestão e transformação. Sua abordagem declarativa permite fluxos de trabalho escaláveis e padronizados em uma configuração descentralizada, mantendo uma visão geral centralizada. Governança aprimorada, controle de acesso refinado e linhagem de dados garantem uma gestão de pipeline segura e eficiente. A nova capacidade de publicar em vários catálogos e esquemas a partir de um único pipeline DLT simplifica ainda mais a gestão de dados e reduz custos."
— Maarten de Haas, Arquiteto de Produto, Heineken International

A integração do DLT com o UC garante que os dados sejam gerenciados de forma consistente em várias etapas do pipeline de dados, proporcionando pipelines mais eficientes, melhor linhagem e conformidade com requisitos regulatórios, e operações de dados mais confiáveis. As principais melhorias nesta integração incluem:

A capacidade de publicar em vários catálogos e esquemas a partir de um único pipeline DLT
Suporte para segurança em nível de linha e mascaramento de coluna
Migração do Metastore Hive

Publicar em Vários Catálogos e Esquemas a partir de um Único Pipeline DLT

Para simplificar o gerenciamento de dados e otimizar o desenvolvimento do pipeline, o Databricks agora permite a publicação de tabelas em vários catálogos e esquemas dentro de um único pipeline DLT. Esta melhoria simplifica a sintaxe e elimina a necessidade da palavra-chave LIVE, além de reduzir os custos de infraestrutura, tempo de desenvolvimento e carga de monitoramento, ajudando os usuários a consolidar facilmente vários pipelines em um. Saiba mais no post detalhado do blog.

Suporte para Segurança em Nível de Linha e Mascaramento de Coluna

A integração do DLT com o Catálogo Unity também inclui controle de acesso refinado com segurança em nível de linha (RLS) e máscara de coluna (CM) para conjuntos de dados publicados por pipelines DLT. Administradores podem definir filtros de linha para restringir a visibilidade dos dados no nível da linha e máscaras de coluna para proteger dinamicamente informações sensíveis, garantindo forte governança de dados, segurança e conformidade.

Principais benefícios

Controle de acesso preciso: Os administradores podem impor restrições de nível de linha e baseadas em colunas, garantindo que os usuários vejam apenas os dados aos quais estão autorizados a acessar.
Melhoria na segurança dos dados: Dados sensíveis podem ser mascarados ou filtrados dinamicamente com base em funções de usuário, prevenindo o acesso não autorizado.
Governança reforçada: Esses controles ajudam a manter a conformidade com políticas internas e regulamentos externos, como GDPR e HIPAA.

Existem vários exemplos de funções definidas pelo usuário SQL (UDF) de como definir essas políticas na documentação.

Migrando do Hive Metastore (HMS) para o Unity Catalog (UC)

Mover pipelines DLT do Hive Metastore (HMS) para o Unity Catalog (UC) simplifica a governança, aumenta a segurança e permite suporte a vários catálogos. O processo de migração é simples - as equipes podem clonar pipelines existentes sem interromper as operações ou reconstruir configurações. O processo de clonagem copia as configurações do pipeline, atualiza as visualizações materializadas (MVs) e as tabelas de streaming (STs) para serem gerenciadas pela UC, e garante que as STs retomem o processamento sem perda de dados. As melhores práticas para essa migração estão totalmente documentadas aqui.

Principais benefícios

Transição sem interrupções – Copia as configurações do pipeline e atualiza as tabelas para se alinhar com os requisitos do UC.
Tempo de inatividade mínimo – As STs retomam o processamento a partir de seu último estado sem intervenção manual.
Governança aprimorada – UC oferece segurança aprimorada, controle de acesso e rastreamento de linhagem de dados.

Uma vez que a migração esteja completa, os pipelines originais e novos podem funcionar de forma independente, permitindo que as equipes validem a adoção do UC em seu próprio ritmo. Esta é a melhor abordagem para migrar pipelines DLT hoje. Embora exija cópia de dados, ainda este ano planejamos introduzir uma API para migração sem cópia - fique atento para atualizações.

Outras Características e Melhorias Importantes

Experiência de Desenvolvimento Mais Suave e Rápida

Fizemos melhorias significativas no desempenho do DLT nos últimos meses, possibilitando um desenvolvimento mais rápido e uma execução de pipeline mais eficiente.

Primeiro, aceleramos a fase de validação do DLT em 80%*. Durante a validação, o DLT verifica esquemas, tipos de dados, acesso à tabela e mais para detectar problemas antes que a execução comece. Em segundo lugar, reduzimos o tempo necessário para inicializar o cálculo serverless para o DLT serverless.

Como resultado, o desenvolvimento iterativo e a depuração de pipelines DLT são mais rápidos do que antes.

*Em média, de acordo com benchmarks internos

Expandindo Sinks DLT: Escreva para qualquer destino com foreachBatch

Com base na API DLT Sink, estamos expandindo ainda mais a flexibilidade das Tabelas Delta Live com o suporte foreachBatch. Esta melhoria permite aos usuários escrever dados de streaming para qualquer sink compatível com batch, desbloqueando novas possibilidades de integração além de Kafka e tabelas Delta.

Com foreachBatch, cada micro-lote de uma consulta de streaming pode ser processado usando transformações em lote, permitindo casos de uso poderosos como operações MERGE INTO no Delta Lake e escrita em sistemas que não possuem suporte nativo para streaming, como Cassandra ou Azure Synapse Analytics. Isso amplia o alcance dos Sinks DLT, garantindo que os usuários possam rotear dados de forma contínua em todo o seu ecossistema. Você pode revisar mais detalhes na documentação aqui.

Benefícios chave:

Suporte irrestrito para sink – Escreva dados de streaming em praticamente qualquer sistema compatível com batch, além de apenas Kafka e Delta.
Transformações mais flexíveis – Use MERGE INTO e outras operações de batch que não são suportadas nativamente no modo de streaming.
Escritas multi-sink - Envie dados processados para vários destinos, possibilitando integrações downstream mais amplas.

Melhorias na Observabilidade DLT

Os usuários agora podem acessar o histórico de consultas para pipelines DLT, facilitando a depuração de consultas, identificação de gargalos de desempenho e otimização de execuções de pipeline. Disponível em Visualização Pública, este recurso permite que os usuários revisem detalhes de execução de consulta através da interface de Histórico de Consultas, notebooks ou a interface do pipeline DLT. Ao filtrar por consultas específicas do DLT e visualizar perfis de consulta detalhados, as equipes podem obter insights mais profundos sobre o desempenho do pipeline e melhorar a eficiência.

O registro de eventos agora pode ser publicado no UC como uma tabela Delta, fornecendo uma maneira poderosa de monitorar e depurar pipelines com maior facilidade. Ao armazenar dados de eventos em um formato estruturado, os usuários podem utilizar SQL e outras ferramentas para analisar logs, rastrear desempenho e solucionar problemas de forma eficiente.

Também introduzimos Executar Como para pipelines DLT, permitindo que os usuários especifiquem o principal de serviço ou conta de usuário sob o qual um pipeline é executado. Desacoplar a execução do pipeline do proprietário do pipeline aumenta a segurança e a flexibilidade operacional.

Por fim, os usuários agora podem filtrar pipelines com base em vários critérios, incluindo identidades e tags de executar como. Esses filtros permitem um gerenciamento e rastreamento de pipeline mais eficientes, garantindo que os usuários possam encontrar e gerenciar rapidamente os pipelines de seu interesse.

Essas melhorias, coletivamente, aprimoram a observabilidade e a gerenciabilidade dos pipelines, facilitando para as organizações garantir que seus pipelines estejam operando conforme o esperado e alinhados com seus critérios operacionais.

Principais benefícios

Maior visibilidade & depuração - Armazene registros de eventos como tabelas Delta e acesse o histórico de consultas para analisar o desempenho, solucionar problemas e otimizar as execuções de pipeline.
Segurança & controle mais fortes – Use Run As para desacoplar a execução do pipeline do proprietário, melhorando a segurança e a flexibilidade operacional.
Melhor organização e rastreamento – Marque pipelines para análise de custos e gerenciamento eficiente, com novas opções de filtragem e histórico de consultas para melhor supervisão.

Leia Tabelas de Streaming e Visualizações Materializadas no Modo de Acesso Dedicado

Agora estamos introduzindo a capacidade de ler Tabelas de Streaming (STs) e Visualizações Materializadas (MVs) no modo de acesso dedicado. Este recurso permite que os proprietários de pipelines e usuários com os privilégios SELECT necessários consultem STs e MVs diretamente de seus clusters dedicados pessoais.

Esta atualização simplifica os fluxos de trabalho, abrindo o acesso ST e MV para clusters atribuídos que ainda não foram atualizados para clusters compartilhados. Com acesso a STs e MVs no modo de acesso dedicado, os usuários podem trabalhar em um ambiente isolado - ideal para depuração, desenvolvimento e exploração pessoal de dados.

Principais benefícios

Otimize o desenvolvimento: Teste e valide pipelines em diferentes tipos de clusters.
Fortaleça a segurança: Aplique controles de acesso e requisitos de conformidade.

Outras Melhorias

Os usuários agora podem ler um feed de dados de alteração (CDF) de STs direcionados pelo comando APPLY CHANGES. Esta melhoria simplifica o rastreamento e processamento de alterações em nível de linha, garantindo que todas as modificações de dados sejam capturadas e tratadas de forma eficaz.

Além disso, Liquid Clustering agora é suportado para STs e MVs dentro do Databricks. Este recurso aprimora a organização e a consulta de dados, gerenciando dinamicamente o agrupamento de dados de acordo com colunas especificadas, que são otimizadas durante os ciclos de manutenção do DLT, normalmente realizados a cada 24 horas.

Conclusão

Ao alinhar as melhores práticas para engenharia de dados inteligente com a governança unificada do lakehouse, a integração DLT/UC simplifica a conformidade, aprimora a segurança dos dados e reduz a complexidade da infraestrutura. As equipes agora podem gerenciar pipelines de dados com controles de acesso mais fortes, melhor observabilidade e maior flexibilidade—sem sacrificar o desempenho. Se você está usando DLT hoje, esta é a melhor maneira de garantir que seus pipelines estejam preparados para o futuro. Se não, esperamos que esta atualização represente para você um passo significativo em nosso compromisso de maximizar a experiência do usuário DLT para as equipes de dados.

Explore nossa documentação para começar, e fique atento para as melhorias do roadmap listadas acima. Adoraríamos receber seu feedback!

(This blog post has been translated using AI-powered tools) Original Post

O que vem a seguir?

Introducing AI/BI: Intelligent Analytics for Real-World Data

June 11, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

January 31, 2025/3 min de leitura

Summary

Integração do Catálogo Unity

Publicar em Vários Catálogos e Esquemas a partir de um Único Pipeline DLT

Suporte para Segurança em Nível de Linha e Mascaramento de Coluna

Principais benefícios

Migrando do Hive Metastore (HMS) para o Unity Catalog (UC)

Principais benefícios

Outras Características e Melhorias Importantes

Experiência de Desenvolvimento Mais Suave e Rápida

Expandindo Sinks DLT: Escreva para qualquer destino com foreachBatch

Benefícios chave:

Melhorias na Observabilidade DLT

Principais benefícios

Leia Tabelas de Streaming e Visualizações Materializadas no Modo de Acesso Dedicado

Principais benefícios

Outras Melhorias

Conclusão

Nunca perca uma postagem da Databricks

Sign up

O que vem a seguir?

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 no Databricks