Governança de dados
O que é governança de dados?
Governança de dados é a supervisão para garantir que os dados agreguem valor e ofereçam suporte à estratégia de negócios. A governança de dados é mais do que apenas uma ferramenta ou um processo. Ela alinha os requisitos relacionados a dados às estratégias de negócios usando uma estrutura entre pessoas, processos, tecnologia e dados com foco na cultura para dar suporte às metas e aos objetivos de negócios.
Quais são os benefícios empresariais da governança de dados?
À medida que a quantidade e a complexidade dos dados crescem, cada vez mais organizações recorrem à governança de dados para garantir os principais resultados de negócios:
- Qualidade de dados consistente e alta como base para análise e machine learning
- Redução do tempo para obter insights
- Suporte a riscos e conformidade com regulamentações do setor, como HIPPA, FedRAMP, GDPR ou CCPA.
- Democratização de dados, ou seja, permitir que todos em uma organização tomem decisões orientadas por dados
- Otimização de custos, por exemplo, ao evitar que os usuários iniciem grandes clusters e criem proteções para o uso de instâncias de GPU caras.
Como se cria uma boa solução de governança de dados?
As empresas orientadas por dados normalmente constroem suas arquiteturas de dados no lakehouse. Um data lakehouse é uma arquitetura que permite data engineering eficiente e segura, machine learning, armazenamento de dados e business intelligence diretamente em grandes quantidades de dados armazenados em data lakes. A governança de dados para um data lakehouse oferece vários recursos importantes:
- Catálogo unificado: um catálogo unificado armazena todos os seus dados, modelos de ML e artefatos de análise, bem como metadados para cada objeto de dados. O catálogo unificado também combina dados de outros catálogos, como um Hive metastore existente.
- Controles unificados de acesso a dados: um modelo de permissões único e unificado em todos os ativos de dados e em todas as nuvens. Isso inclui o controle de acesso baseado em atributos (ABAC) para informações de identificação pessoal (PII).
- Auditoria de dados: o acesso aos dados é auditado centralmente com alertas e recursos de monitoramento para promover a responsabilidade.
- Gerenciamento da qualidade dos dados: gerenciamento robusto da qualidade dos dados com controles de qualidade integrados, testes, monitoramento e aplicação para garantir que dados precisos e úteis estejam disponíveis para cargas de trabalho downstream de BI, análises e machine learning
- Linhagem de dados: linhagem de dados para obter visibilidade de ponta a ponta de como os dados fluem no lakehouse, da origem ao consumo
- Descoberta de dados: descoberta fácil de dados para permitir que data scientists, analistas de dados e engenheiros de dados descubram e consultem rapidamente dados relevantes e acelerem o retorno sobre o investimento
- Compartilhamento de dados: os dados podem ser compartilhados entre nuvens e plataformas.
Qual é a diferença entre gerenciamento de dados e governança de dados?
O gerenciamento de dados concentra-se em atividades em conformidade com políticas, princípios e padrões de governança de dados para fornecer dados confiáveis. Essas atividades geralmente são curtas e focadas no projeto. A governança de dados é tratada como um programa para obter benefícios de longo prazo. Uma ferramenta de governança centralizada desempenha um papel fundamental na implementação da governança.
Saiba mais sobre governança de dados e compartilhamento de dados no Databricks
- Unity Catalog da Databricks
- Delta Sharing da Databricks