Data Vault
O que é Data Vault?
O Data Vault é um padrão de design de modelagem de dados usado para construir data warehouse para análise em escala empresarial. Um Data Vault tem três tipos de entidades: hubs, links e satélites.
Os hubs representam os conceitos principais do seu negócio, os links representam os relacionamentos entre os hubs, e os satélites armazenam informações sobre os hubs e relacionamentos entre eles.
Um Data Vault é um modelo de dados adequado para organizações que adotam o paradigma lakehouse.
Modelagem de Data Vault: hubs, links, satélites
- Hubs: cada hub representa um conceito central do seu negócio, como ID do cliente, número do produto ou número de identificação do veículo (VIN). Os usuários usam chaves comerciais para recuperar informações sobre hubs. Uma chave de negócios pode conter uma combinação de ID de conceito de negócios, ID de sequência, data de carregamento e outras informações de metadados.
- Links: os links representam relacionamentos entre hubs.
- Satélites: os satélites preenchem as lacunas nas informações descritivas sobre os principais conceitos de negócios. Armazenam informações que pertencem aos hubs e relacionamentos entre eles.
Pontos a ter em mente
- Os satélites não podem se conectar diretamente a outros satélites.
- Um hub ou link pode ter mais de um satélite.
Vantagens do Data Vault
- Ágil
- Estruturado e flexível para refatoração
- Grande escalabilidade para volumes em petabytes
- Usa padrões compatíveis com geração de código ETL
- Usa sua arquitetura atual, incluindo camada de dados, ETL e esquemas em estrela
O Data Vault é baseado em métodos e tecnologias ágeis para que possa se adaptar aos requisitos de negócios que mudam rapidamente. Uma grande vantagem de usar a metodologia de Data Vault é que os jobs ETL requerem menos refatoração quando o modelo muda.
Técnicas de modelagem por camada de lakehouse
Com base nos conceitos mencionados acima, discutiremos como o Data Vault se encaixa nas camadas de dados Bronze, Prata e Ouro, transformando dados brutos em dados refinados adequados para análise. Nesta arquitetura multi-hop, os dados brutos são armazenados na camada Bronze com transformações mínimas e estruturas de dados próximas ao sistema de origem. Um Data Vault é aplicado à camada Prata, e os dados são transformados em hubs, links e satélites.
Na camada Ouro, você pode criar vários data marts ou data warehouses usando modelagem dimensional ou o método Kimball. Conforme discutido anteriormente, a camada Ouro é boa para relatórios e usa um modelo de dados com menos junção, mais desnormalizado e otimizado para leitura. Às vezes, as tabelas na camada Ouro podem ser completamente desnormalizadas, normalmente se os data scientists desejarem alimentar seus algoritmos para engenharia de recursos.
O uso do modelo de Data Vault na camada Prata simplifica e reduz bastante as alterações de ETL necessárias para data marts e data warehouses. Isso ocorre porque o hub facilita o gerenciamento de chaves (chave substituta/chave natural). Os satélites contêm todos os atributos e facilitam o carregamento de dimensões. Além disso, carregar tabelas de fatos é extremamente fácil, pois os links gerenciam todos os relacionamentos.