Arquitetura medallion
O que é uma arquitetura medallion?
A arquitetura medallion se refere ao design de dados usado para organizar logicamente os dados do lakehouse, que visa melhorar de forma incremental e progressiva a estrutura e a qualidade dos dados à medida que fluem pelas três camadas da arquitetura (tabelas Bronze ⇒ Prata ⇒ Ouro). As arquiteturas medallion também são conhecidas como arquitetura “multi-hop”.
Benefícios de uma arquitetura lakehouse
- Modelo de dados simples
- Fácil de entender e implementar
- Habilita ETL incremental
- Pode recriar suas tabelas a partir de dados brutos a qualquer momento
- Transações ACID, dados históricos
Uma rápida introdução sobre lakehouses
Lakehouse é uma nova arquitetura de plataforma de dados que incorpora os melhores elementos de data lakes e data warehouses. Um lakehouse moderno é uma plataforma de dados com excelente escalabilidade e desempenho que hospeda dados brutos e preparados para impulsionar o consumo rápido, insights avançados e tomada de decisões em seus negócios. Ele elimina os silos de dados e permite o acesso seguro e contínuo aos dados em uma única plataforma para usuários autenticados em toda a empresa.
Camada bronze (dados brutos)
A camada Bronze armazena todos os dados de sistemas de origem externa. As estruturas da tabela desta camada correspondem às estruturas da tabela “como estão” no sistema de origem, juntamente com metadados de colunas adicionais, como data de carregamento, ID do processo etc. Essa camada fornece captura rápida de dados alterados, arquivamento histórico de fonte (armazenamento a frio), linhagem de dados, auditabilidade e reprocessamento conforme necessário, sem recarregar os dados do sistema de origem.
Camada Prata (dados limpos e adaptados)
A camada Prata do lakehouse combina, faz merge, adapta e limpa (moderadamente) os dados na camada Bronze para fornecer uma “visão corporativa” de todas as principais entidades de negócios, conceitos e transações (por exemplo, tabelas mestre de clientes, lojas, transações desduplicadas e referência cruzada).
A camada Prata traz dados de fontes diferentes para uma visão corporativa, permitindo análises de autoatendimento, como relatórios ad hoc, análises avançadas e ML. Os dados da camada Prata são a fonte de projetos e análises para analistas, engenheiros de dados e data scientists para ajudar a resolver desafios de negócios em empresas e projetos de dados departamentais na camada Ouro.
A engenharia de dados no lakehouse normalmente envolve a metodologia ELT em vez de ETL. Isso significa que apenas regras mínimas ou “moderadas” de transformação e limpeza de dados são aplicadas quando os dados são carregados na camada Prata. Velocidade e agilidade na ingestão e entrega de dados no data lake são priorizadas, e muitas transformações complexas específicas de projetos e regras de negócios são aplicadas à medida que os dados são carregados da camada Prata para a camada Ouro. Em termos de modelagem de dados, a camada Prata possui um modelo de dados próximo à Terceira Forma Normal. Essa camada permite modelos de dados graváveis, como Data Vault.
Camada Ouro (tabelas de nível empresarial selecionadas)
Os dados na camada Ouro do lakehouse são normalmente organizados em bancos de dados consumíveis “somente para projetos”. A camada Ouro é boa para relatórios e usa um modelo de dados com menos junção, mais desnormalizado e otimizado para leitura. É a camada final para transformações de dados, regras de qualidade de dados e apresentação em projetos como análise de clientes, análise de qualidade do produto, análise de estoque, segmentação de clientes, recomendação de produtos, análise de marcação/vendas. Muitos modelos de dados baseados em esquemas em estrela estilo Kimball, ou data marts estilo Inmon, se encaixam nessa camada Ouro de lakehouse.
Dessa forma, os dados são selecionados à medida que se movem pelas diferentes camadas do lakehouse. Em alguns casos, data marts e EDWs de pilhas de tecnologia RDBMS tradicionais são trazidos para o lakehouse para permitir a primeira análise avançada “pan-EDW” e ML na empresa. É algo que não é possível com pilhas tradicionais ou porque é muito caro (por exemplo, conectando dados de IoT/fabricação com dados de vendas/marketing para realizar análise de defeitos e genômica de assistência médica, construindo um data lake de assistência médica vinculando os mercados de dados clínicos EMR/HL7 e dados de crédito financeiro para analisar e melhorar o atendimento).
Arquitetura medallion e malha de dados
A arquitetura medallion é compatível com o conceito de malha de dados. As tabelas Bronze e Prata podem ser unidas de maneira “um para muitos”, de modo que os dados de uma tabela upstream possam ser usados para gerar várias tabelas downstream.