O Delta Live Tables (DLT) é uma estrutura ETL declarativa para a Databricks Data Intelligence Platform que ajuda as equipes de dados a simplificar o streaming e o ETL em batch de forma econômica. Basta definir as transformações a serem executadas em seus dados e permitir que os pipelines DLT gerenciem automaticamente a orquestração de tarefas, o gerenciamento de cluster, o monitoramento, a qualidade dos dados e o tratamento de erros.
Ingestão de dados eficiente
A construção de pipelines ETL prontos para produção no lakehouse começa com a ingestão. O DLT alimenta a ingestão fácil e eficiente para toda a sua equipe, de engenheiros de dados e desenvolvedores Python até data scientists e analistas de SQL. Com o DLT, você carrega dados de qualquer fonte de dados compatível com o Apache Spark™ na Databricks.
- Use o Auto Loader e tabelas de streaming para implantar dados de forma incremental na camada Bronze para pipelines DLT ou queries SQL da Databricks
- Faça a ingestão de armazenamento em nuvem, barramentos de mensagens e sistemas externos
- Use a captura de dados de alterações (CDC) no DLT para atualizar tabelas com base nas alterações nos dados de origem
"Adoro o Delta Live Tables porque ela vai além dos recursos do Auto Loader para facilitar ainda mais a leitura de arquivos. Fiquei de queixo caído quando conseguimos configurar um pipeline de streaming em 45 minutos."
— Kahveh Saramout, engenheiro de dados sênior, Labelbox
Transformação de dados inteligente e econômica
Com apenas algumas linhas de código, o DLT determina a maneira mais eficiente de criar e executar seus pipelines de dados de streaming ou em batch, otimizando o preço/desempenho(quase 4x a linha de base da Databricks) e reduzindo a complexidade.
- Implemente instantaneamente uma arquitetura medallion simplificada com tabelas de streaming e visualizações materializadas
- Otimize a qualidade dos dados para obter o máximo valor comercial com recursos como expectativas
- Atualize pipelines no modo contínuo ou acionado para atender às suas necessidades de atualização de dados
"O Delta Live Tables ajudou nossas equipes a economizar tempo e esforço gerenciando dados na escala de vários milhões de registros e melhorando continuamente nossos recursos de engenharia de IA... A Databricks está revolucionando os mercados de ETL e data warehouse."
— Dan Jeavons, gerente-geral de data science, Shell
Configuração e manutenção simples do pipeline
Os pipelines DLT simplificam o desenvolvimento de ETL, automatizando praticamente toda a complexidade operacional inerente. Com os pipelines DLT, os engenheiros podem se concentrar em fornecer dados de alta qualidade em vez de operar e manter pipelines. O DLT lida automaticamente com:
- Orquestração de tarefas
- CI/CD e controle de versões
- Dimensionamento automático da infraestrutura de compute para redução de custos
- Monitoramento por métricas no registro de eventos
- Tratamento de erros e recuperação de falhas
"Arquiteturas complexas, como gerenciamento de esquemas dinâmicos e transformações com e sem estado, são difíceis de implementar com arquiteturas tradicionais de data warehouse multicloud. Agora, tanto data scientists quanto engenheiros de dados podem realizar essas mudanças usando Delta Live Tables escaláveis sem barreiras de entrada."
— Sai Ravuru, gerente sênior de data science e análise de dados, JetBlue
Mecanismo de processamento de stream de última geração
Spark Structured Streaming é a tecnologia principal que desbloqueia pipelines DLT de streaming, fornecendo uma API unificada para processamento em batch e stream. Os pipelines DLT aproveitam a latência inerente de subsegundos do Spark Structured Streaming e a relação preço/desempenho recorde. Embora seja possível construir manualmente seus próprios pipelines de streaming de desempenho com o Spark Structured Streaming, os pipelines DLT podem fornecer retorno de valor mais rápido, melhor velocidade de desenvolvimento contínuo e menor TCO devido à sobrecarga operacional que gerenciam automaticamente.
“Não tivemos que fazer nada para dimensionar o DLT. Mesmo quando fornecemos mais dados ao sistema, ele dá conta. Desde o início, tivemos a confiança de que o sistema poderia lidar com todos os tipos de dados inseridos.”
— Dr. Chris Inkpen, arquiteto de soluções globais, Honeywell
Comparação entre pipelines Delta Live Tables e pipelines Spark Structured Streaming “personalizados”
Spark Structured Streaming pipelines | DLT pipelines | ||
---|---|---|---|
Execução na plataforma Databricks Lakehouse | |||
Baseado no mecanismo Spark Structured Streaming | |||
Integração com o Unity Catalog | |||
Orquestração com o Databricks Workflows | |||
Ingestão de dezenas de fontes, de armazenamento em nuvem até barramentos de mensagens | |||
Orquestração do fluxo de dados | Manual | Automatizado | |
Verificação e garantia da qualidade dos dados | Manual | Automatizado | |
Tratamento de erros e recuperação de falhas | Manual | Automatizado | |
CI/CD e controle de versões | Manual | Automatizado | |
Dimensionamento automático de compute | Básico |
Governança e armazenamento de dados unificados
A execução de pipelines DLT no Databricks significa que você se beneficia dos componentes fundamentais da Data Intelligence Platform desenvolvida na arquitetura do lakehouse — Unity Catalog e Delta Lake. Seus dados brutos são otimizados com o Delta Lake, a única estrutura de armazenamento de código aberto projetada do zero para dados em batch e streaming. O Unity Catalog inclui governança detalhada para todos os seus dados e ativos de IA com um modelo consistente para descobrir, acessar e compartilhar dados nas nuvens. O Unity Catalog também fornece suporte nativo para Delta Sharing, o primeiro protocolo aberto do setor para compartilhamento de dados fácil e seguro com outras organizações.
"Estamos muito empolgados com a integração do Delta Live Tables com o Unity Catalog. Essa integração nos ajudará a simplificar e automatizar a governança de dados para nossos pipelines DLT, ajudando a atender aos requisitos de segurança e dados confidenciais à medida que ingerimos milhões de eventos em tempo real. Isso abre um mundo de potencial e aprimoramentos para nossos casos de uso de negócios relacionados à modelagem de risco e detecção de fraudes."
— Yue Zhang, engenheiro de software da equipe, Block