Governança de dados
Um guia abrangente sobre os processos, as políticas e a tecnologia que as organizações usam para gerenciar e aproveitar ao máximo seus dados
Introdução
O que é governança de dados?
A governança de dados é uma abordagem abrangente que compreende os princípios, as práticas e as ferramentas para gerenciar os ativos de dados de uma organização durante todo o ciclo de vida. Ao alinhar os requisitos relacionados aos dados com a estratégia de negócios, a governança de dados fornece recursos superiores de gerenciamento, qualidade, visibilidade, segurança e conformidade de dados em toda a organização. A implementação de uma estratégia eficaz de governança de dados permite que as empresas disponibilizem os dados facilmente para a tomada de decisões orientada por dados, protegendo seus dados contra acesso não autorizado e garantindo a conformidade com os requisitos regulamentares.
Continue explorando
Guia abrangente de governança de dados e IA
Como construir uma estratégia de governança eficaz para seu lakehouse.
Estrutura de segurança de IA da Databricks (DASF)
Proteja suas iniciativas de IA em qualquer plataforma.
Big Book of Data Engineering
Acelere sua experiência com este guia essencial para a era da IA.
Quais são os benefícios empresariais da governança de dados?
A governança de dados é essencial para liberar o valor dos dados, que são um ativo essencial para as organizações. Ao implementar uma abordagem robusta de governança de dados, as empresas podem aproveitar seus ativos de dados, obter uma vantagem competitiva e conquistar e manter a confiança do cliente, garantindo práticas sólidas de dados e privacidade.
Aumento da eficiência operacional e redução de custos
A governança de dados eficaz permite que as organizações criem uma única fonte confiável para seu patrimônio de dados, evitando a dispersão e os silos de dados e reduzindo a duplicação. Isso resulta em maior eficiência, redução de custos e gerenciamento mais fácil dos conceitos de segurança e governança em todo o patrimônio de dados.
Maior produtividade e tomada de decisão mais rápida
A governança de dados promove a democratização dos dados, garantindo a precisão, a consistência e a confiabilidade dos dados. Ela ajuda os usuários de dados a encontrar dados de alta qualidade rapidamente, promovendo uma melhor compreensão do significado e do contexto dos dados, levando a uma maior produtividade e agilizando a tomada de decisões.
Colaboração aprimorada e realização de valor
Um forte programa de governança de dados estabelece a base para uma melhor colaboração e compartilhamento de dados entre equipes, unidades de negócios e parceiros. Isso ajuda as organizações a promover o compartilhamento de conhecimento e criar uma melhor cultura de dados, levando a uma maior inovação, melhor tomada de decisões e maximizando o valor de seus dados.
Segurança e privacidade aprimoradas
A governança de dados reduz os riscos de segurança e privacidade implementando controles e processos para impedir o acesso não autorizado e o uso indevido de dados confidenciais. Ela promove uma cultura de confiança e transparência com as partes interessadas.
Melhor conformidade com regulamentos e normas
A governança de dados eficaz resulta em melhor conformidade com os requisitos regulatórios, como HIPAA, FedRAMP, GDPR ou CCPA. Isso protege a reputação da organização, evita possíveis consequências financeiras e legais e aumenta a confiança das partes interessadas.
Principais elementos da governança de dados
Catalogação de dados
Uma governança de dados eficaz requer conhecimento dos dados existentes em uma organização. É aí que entra um catálogo de dados, que fornece um repositório de metadados centralizado para os ativos de dados de uma organização. Um catálogo de dados permite que as partes interessadas descubram, entendam e acessem rapidamente os dados de que precisam, melhorando as atividades relacionadas a dados, como descobrimento, governança e análise. Ele atua como um índice pesquisável de todos os dados disponíveis, incluindo informações sobre seu formato, estrutura, localização e uso, fornecendo valor semântico a uma enormidade de informações que, de outra forma, não seriam identificáveis. A incorporação de um catálogo de dados em um programa de governança pode ajudar as organizações a melhorar o gerenciamento de dados, aprimorar a colaboração, reduzir a redundância e garantir controles de acesso adequados e a recuperação de informações de auditoria.
Qualidade dos dados
No mundo atual impulsionado por dados, garantir a alta qualidade dos dados é crucial para analítica precisa, tomada de decisões informada e economia. A qualidade dos dados afeta diretamente a confiabilidade das decisões baseadas em dados e é um aspecto fundamental da governança de dados. Para manter uma governança de dados eficaz, as organizações devem priorizar a avaliação dos principais atributos de qualidade dos dados, como precisão, integridade, atualização e conformidade com as regras de qualidade de dados. Portanto, um forte foco na qualidade dos dados é essencial em qualquer estratégia de governança de dados, pois ajuda a rastrear a linhagem de dados, aplicar regras de qualidade de dados e rastrear mudanças. Não deixe que a baixa qualidade dos dados comprometa suas decisões de negócios e a alocação de recursos. Priorize a qualidade dos dados como parte essencial de seus esforços de governança de dados para obter melhores resultados.
Classificação de dados
A classificação de dados é uma parte crucial da governança de dados que envolve a organização e a categorização dos dados com base em sua sensibilidade, valor e criticidade. Com o crescimento exponencial dos dados, as empresas estão cada vez mais preocupadas em proteger dados confidenciais, mitigar riscos e garantir a qualidade dos dados. A classificação permite que as organizações identifiquem e classifiquem os dados com base em seu nível de risco e importância, permitindo que apliquem medidas e políticas de segurança apropriadas. Um sistema robusto de classificação de dados aprimora a governança dos dados, reduz os riscos e garante a qualidade e a proteção dos dados em escala.
Segurança dos dados
As organizações entendem a importância de conceder acesso a dados de alta qualidade às suas equipes para gerar insights e valor comercial, ao mesmo tempo em que priorizam a proteção de dados confidenciais contra o acesso não autorizado. O gerenciamento eficaz do acesso aos dados é fundamental para a segurança e a governança dos dados, e um bom programa de governança de segurança de dados deve incluir controles de acesso que definam quais grupos ou indivíduos podem acessar quais dados. Esses controles podem ser altamente específicos, chegando até ao nível de registro ou arquivo individual. Como as violações de dados e as regulamentações, como o GDPR e a CCPA, representam riscos cada vez maiores, as empresas devem estabelecer políticas de governança claras que definam quem pode acessar conjuntos de dados confidenciais e como rastrear qualquer uso indevido. O acesso não autorizado a informações privadas ou confidenciais não deve ocorrer, e implementar estratégias eficazes de gerenciamento de acesso é essencial para proteger os dados e manter a confiança do cliente.
Auditoria de direitos e acesso a dados
A auditoria eficaz do acesso aos dados é um aspecto essencial dos programas de governança de dados e de governança de segurança, principalmente em setores regulamentados. Ao entender quem tem acesso a quais dados e rastrear o acesso recente, as organizações podem identificar proativamente usuários ou grupos com excesso de direitos e ajustar seu acesso adequadamente, minimizando o risco de uso indevido dos dados. Sem mecanismos de auditoria adequados, uma organização pode não estar totalmente ciente de sua área de superfície de risco, deixando-a vulnerável a violações de dados e não conformidade regulatória. Portanto, uma equipe de auditoria bem projetada dentro de uma organização de governança de dados ou de governança de segurança desempenha um papel fundamental para garantir a segurança dos dados e a conformidade com regulamentos como o GDPR e a CCPA. Ao implementar estratégias eficazes de auditoria de acesso a dados, as organizações podem manter a confiança de seus clientes e proteger seus dados contra acesso não autorizado ou uso indevido.
Linhagem de dados
A linhagem de dados é uma ferramenta poderosa que ajuda as organizações a garantir a qualidade e a confiabilidade dos dados, fornecendo uma melhor compreensão das fontes e do consumo de dados. Ela captura metadados e eventos relevantes em todo o ciclo de vida dos dados, fornecendo uma visão de ponta a ponta de como os dados fluem pelo patrimônio de dados de uma organização. Como um pilar essencial de uma estratégia pragmática de governança de dados, a linhagem de dados permite que as organizações se tornem compatíveis e prontas para auditoria, ao mesmo tempo em que reduz a sobrecarga operacional de criação manual de trilhas de auditoria e fornece fontes confiáveis para relatórios de auditoria. Além disso, a linhagem de dados capacita os consumidores de dados a realizar análises melhores e ajuda as equipes de dados a realizar a análise da causa raiz de quaisquer erros, reduzindo significativamente o tempo de depuração.
Descobrimento de dados
À medida que as organizações continuam a coletar grandes quantidades de dados de várias fontes, está se tornando cada vez mais importante tornar esses dados facilmente detectáveis para casos de uso de analítica, IA ou ML. Isso é fundamental para acelerar a democratização dos dados e desbloquear seu verdadeiro valor. Além disso, com o surgimento de ativos de dados modernos, como dashboards, modelos de machine learning, queries, bibliotecas e notebooks, o descobrimento de dados se tornou um pilar fundamental de uma estratégia robusta de governança de dados. As organizações devem ver o descobrimento de dados como um aspecto fundamental de sua estratégia de governança de dados. Ele permite que as equipes de dados localizem facilmente os ativos de dados em toda a organização, colaborem em vários projetos e inovem com rapidez e eficiência. Isso ajuda a evitar a duplicação de dados, o que pode ser problemático, pois custa dinheiro persisti-los e pode levar a desafios de governança em diferentes níveis de segurança.
Compartilhamento e colaboração de dados
O compartilhamento e a colaboração de dados são componentes vitais no ambiente de negócios atual, com as organizações trocando dados com equipes internas, parceiros externos e clientes em várias nuvens, plataformas de dados e regiões. Como a demanda por dados externos continua a crescer, é fundamental que as organizações troquem dados com segurança e, ao mesmo tempo, mantenham o controle e a visibilidade sobre como suas informações confidenciais são usadas. Os clean rooms de dados desempenham um papel crítico na colaboração de dados segura e controlada, garantindo que os regulamentos de privacidade de dados sejam mantidos. É essencial que as organizações invistam em tecnologias de compartilhamento de dados de formato aberto, interoperáveis e multicloud para atender às suas necessidades de inovação orientada por dados. Além disso, os mercados de dados funcionam como uma ponte entre os provedores de dados e os consumidores, facilitando o descobrimento e a distribuição de conjuntos de dados. Portanto, é fundamental reformular o compartilhamento de dados como uma necessidade comercial e um pilar crucial de uma estratégia robusta de governança de dados.
Como se cria uma boa solução de governança de dados?
As organizações com foco em dados priorizam os dados, a análise de dados e a IA para impulsionar os resultados comerciais e criam suas estratégias de dados em torno de uma arquitetura de data lakehouse, que unifica dados, análise e IA em uma única plataforma. Essa arquitetura combina os melhores recursos de data warehouses e data lakes para lidar com todos os dados, análises de dados e casos de uso de IA. Todos os dados são armazenados em um data lake na cloud e gerenciados por uma camada unificada, permitindo que a análise seja realizada diretamente em uma única cópia dos dados. Essa abordagem simplifica a governança e a segurança dos dados, reduz os silos funcionais e facilita a colaboração. Ao incutir alta confiança nos dados, as organizações podem operar com confiança e entender melhor como os dados são adquiridos, alterados, usados e impactados em todas as cargas de trabalho de análise de dados.
Uma solução de governança de dados para um data lakehouse fornece vários recursos importantes:
- Catálogo de dados centralizado: um catálogo de dados centralizado armazena todos os seus dados, modelos de ML e artefatos de análise de dados, bem como metadados para cada objeto. O catálogo unificado também combina dados de outros catálogos, como um Hive metastore existente.
- Controles unificados de acesso a dados: um modelo de permissões único e unificado em todos os ativos e em todas as clouds. Isso inclui o controle de acesso baseado em atributos (ABAC) para informações de identificação pessoal (PII).
- Auditoria de dados: o acesso aos dados é auditado centralmente com alertas e recursos de monitoramento para promover responsabilidade e segurança
- Gerenciamento da qualidade dos dados: gerenciamento robusto da qualidade dos dados com controles de qualidade integrados, testes, monitoramento e aplicação para garantir a disponibilidade de dados precisos e úteis
- Linhagem de dados: para obter visibilidade total de como os dados fluem no lakehouse, da origem e consumo até o nível da coluna
- Descobrimento de dados: descoberta fácil de dados para permitir que cientistas de dados, analistas, engenheiros e partes interessadas descubram e consultem rapidamente dados relevantes e acelerem o retorno sobre o investimento
- Compartilhamento de dados e colaboração de dados: os dados podem ser compartilhados — com controles de acesso refinados — entre clouds, regiões e plataformas, evitando a formação de silos
- Clean rooms de dados para colaboração com privacidade segura: colabore em dados confidenciais com partes interessadas internas ou externas em um ambiente que preserva a privacidade
- Marketplace aberto para dados, analítica e IA: descubra, acesse e implante conjuntos de dados, bem como ativos de IA e analíticos — como modelos de ML, notebooks, aplicativos e dashboards — sem dependências de plataforma proprietária, ETL complicado ou replicação cara.
Quem supervisiona a governança de dados?
Diretor de dados
Seu diretor de dados (CDO na sigla em inglês) é o executivo mais sênior da sua equipe de governança. Em última análise, é a pessoa responsável pela segurança, acessibilidade e usabilidade de seus dados.
A função de um CDO envolve configurar o sistema, garantir fundos e pessoal para sua operação (e para aspectos relacionados, como ferramentas para automatizar alguns processos) e realizar verificações regulares de seu status geral.
Proprietários de dados
Os proprietários dos dados são indivíduos ou equipes responsáveis pela administração técnica de seus conjuntos de dados. Eles podem tomar decisões sobre quais membros da equipe devem ter acesso a quais tipos de informações. Se suas políticas (ou a falta delas) levarem a uma violação de dados, eles poderão ser responsabilizados.
Para cumprir essa função e suas muitas responsabilidades, os proprietários de dados geralmente também são membros sênior da sua organização.
Gestores de dados
Para ajudar na execução diária de seus fluxos de trabalho de governança de dados, os proprietários de dados e os CDOs devem nomear gestores de dados. A gestão de dados envolve essencialmente a implementação do programa que foi estabelecido para eles e a garantia de que os dados antigos e novos sejam gerenciados adequadamente. Eles são responsáveis por monitorar a conformidade dos funcionários e dos clientes e por encaminhar os problemas que surgirem.
Comitês de governança de dados
Esse comitê será o principal órgão que cria políticas relevantes em sua organização.
Em geral, ele é composto por executivos seniores e proprietários de dados, que têm grande interesse na segurança e na usabilidade dos dados. Após a aprovação de suas políticas, eles podem estabelecer procedimentos a serem seguidos pelos gestores e também resolver disputas entre as partes.
Qual é a diferença entre gerenciamento de dados e governança de dados?
O gerenciamento e a governança de dados eficazes são cruciais para qualquer organização que lide com dados. Apesar do uso frequente e intercambiável desses termos, eles têm diferenças nítidas. O gerenciamento de dados concentra-se nos aspectos técnicos do gerenciamento do ciclo de vida dos dados, incluindo ingestão, integração, organização, transformação e persistência de dados, como backup, recuperação e arquivamento. Por outro lado, a governança de dados trata da definição de políticas, estruturas e ferramentas organizacionais para garantir que os requisitos relacionados aos dados estejam alinhados com a estratégia de negócios. Isso inclui a precisão e a consistência dos dados, a conformidade com os regulamentos e as políticas organizacionais internas, bem como a qualidade dos dados, a segurança, a privacidade, a auditoria e o gerenciamento de riscos. Além disso, a governança de dados envolve definir propriedade, funções e responsabilidades dos dados e aplicar políticas e procedimentos em toda a organização. Como um pilar fundamental de uma estratégia de dados de longo prazo que aproveita os dados como um ativo estratégico, a governança de dados desempenha um papel significativo, enquanto o gerenciamento de dados lida com o aspecto operacional da execução dessa estratégia.