Malha de dados
Malha de dados
Os dados são críticos para as empresas, atuando como matéria-prima para a inovação e o progresso. Sua importância cresceu à medida que as organizações se tornaram mais centradas em dados e decisões, criando grandes desafios para as organizações que tentam acompanhar. Data lakes e warehouses legados contribuem para esse problema, criando silos, visibilidade reduzida de dados e processamento de dados lento e complicado. Essas barreiras e gargalos impedem a colaboração e deixam recursos valiosos de dados não utilizados. As empresas precisam de uma nova arquitetura de dados para maximizar o uso de seus dados. O Data Mesh é uma arquitetura de dados moderna que pode resolver esse problema.
O que é um Data Mesh?
Data Mesh é uma arquitetura de dados organizacional para gerenciar dados em escala e extrair mais valor desses dados.
A descentralização é a chave para o Data Mesh. Os dados são de propriedade e gerenciados de forma independente por vários domínios de negócios, em vez de serem gerenciados centralmente por uma única equipe para toda a organização — embora regras centrais de governança mantenham os dados interoperáveis, seguros e semanticamente consistentes.
Os gestores de dados de domínio são responsáveis por fornecer produtos de dados de alta qualidade e proteger seus dados. Como eles são responsáveis apenas pelos dados de negócios de seu domínio — e não pelos dados de toda a organização —, eles podem fornecer dados mais relevantes de forma mais rápida e eficiente, mantendo uma governança de dados robusta.
Os princípios do Data Mesh equilibram a autonomia empresarial com a interoperabilidade global. A arquitetura reduz a dependência de equipes centralizadas e evita silos de dados, promovendo um ambiente colaborativo para que as equipes cocriem e compartilhem produtos de dados que gerem valor de negócio para a organização.
Continue explorando
Princípios da arquitetura Data Mesh
Quatro princípios fornecem a base para uma arquitetura lógica do Data Mesh:
- Propriedade do domínio: o Data Mesh utiliza uma arquitetura distribuída em que as equipes de domínio mantêm total responsabilidade e autonomia sobre seus dados ao longo de todo o ciclo de vida. Essas equipes de domínio são compostas por diferentes departamentos ou funções dentro de uma organização, como vendas ou contabilidade, cada um gerando seus próprios dados. A propriedade do domínio assegura que os dados pertençam aos usuários mais familiarizados com eles.
- Dados como um produto: os dados são considerados um produto, e as equipes e departamentos dentro de uma organização são vistos como clientes. A organização aplica princípios de gestão de produtos ao ciclo de vida da análise de dados, assegurando que dados de qualidade sejam entregues aos consumidores de dados. Os produtos de dados precisam ser descobertos, confiáveis, autodescritivos, endereçáveis e interoperáveis. Além de dados e metadados, eles podem incluir código, dashboards, recursos, modelos e outros ativos necessários para criar e manter o produto de dados.
- Plataforma de infraestrutura de autoatendimento: enquanto as equipes de domínio gerenciam seus próprios produtos de dados, a organização utiliza uma plataforma harmonizada e automatizada para construir, executar e manter produtos de dados interoperáveis. O fornecimento de ferramentas padrão dentro da estrutura de uma plataforma de self-service permite a escalabilidade da arquitetura Data Mesh.
- Governança federada: este princípio assegura uma governança de dados centralizada e consistente em todos os domínios. O compliance é rastreado e gerenciado centralmente por meio de um catálogo de dados, ferramentas de governança de dados e aplicação automatizada de políticas. Isso garante um ecossistema de dados que adere às regras organizacionais e às regulamentações das indústrias.
Vantagens do Data Mesh
Tradicionalmente, as organizações utilizam uma equipe centralizada de dados para gerenciar dados — incluindo armazenamento, formatação, processamento e análise — em toda a organização. Isso garante uma gestão de dados e governança consistentes, mas também cria gargalos. Frequentemente, as equipes escapam dessa centralização ao criar, sem querer, silos que aceleram as decisões relacionadas a dados. No entanto, isso também impede que os usuários de dados acessem dados relevantes e precisos de forma oportuna. Além disso, as equipes centralizadas de dados e AI frequentemente têm uma compreensão limitada do contexto único dos datasets de domínio, o que as faz perder oportunidades de criar produtos de dados significativos.
À medida que o volume e o valor dos dados continuam a aumentar, as equipes centralizadas de dados e AI não conseguem atender à demanda com frequência. Isso resulta em uma equipe sobrecarregada, dificulta o acesso e uso dos dados necessários pelos usuários de negócios e impede que a organização aproveite plenamente o valor de seus dados.
Em um Data Mesh, a gestão de dados é descentralizada e confiada a especialistas de domínio que compreendem os dados com os quais trabalham. Isso resulta em vários benefícios:
- Velocidade e simplicidade: os usuários podem acessar os dados corretos mais rapidamente entrando em contato diretamente com os gerentes de domínio para solicitações, alterações e aprovações.
- Produtos de dados de alta qualidade: os gerentes de dados de domínio criam produtos mais relevantes e de maior qualidade que trazem valor aos usuários de negócios.
- Descoberta aprimorada: embora o gerenciamento e o acesso sejam descentralizados, todos os dados são registrados e governados de forma centralizada, evitando silos e facilitando a localização dos dados.
- Eficiência de custo e desempenho: a arquitetura de dados distribuídos promove a adoção de streaming de dados em tempo real e melhora a visibilidade na alocação e armazenamento de recursos, resultando em maior eficiência, melhor planejamento financeiro e custos reduzidos.
- Governança mais robusta: as políticas federadas de segurança e compliance são aplicadas tanto dentro dos domínios quanto entre eles. O monitoramento e a auditoria são centralizados para assegurar uma adesão consistente.
Blocos de construção da malha de dados
Para criar um Data Mesh, as organizações devem ter certos elementos estabelecidos, incluindo:
- Uma estratégia abrangente de produtos de dados que estabelece padrões e processos comuns, como um modelo global para contratos de produtos de dados, uma plataforma de publicação para data discovery e processos e autoridade de governança centralizados, além de proporcionar uma experiência de autoatendimento aos seus usuários.
- Uma plataforma harmonizada onde todos os dados residem e está pronta para todos os tipos de cargas de trabalho analíticas, como uma data intelligence platform.
- Uma plataforma flexível que assegura a colaboração entre diferentes personas de dados, entrega qualidade de dados e facilita a interoperabilidade e a produtividade em todas as cargas de trabalho de dados e AI.
- Serviços de governança de dados gerenciados centralmente focados no controle de acesso e catalogação de dados para facilitar a colaboração entre domínios e a análise de autoatendimento.
- Uma camada de compartilhamento federada que permite o compartilhamento perfeito de dados entre domínios.
- Para muitas organizações, há também a necessidade de considerar como os dados podem ser compartilhados de forma segura com partes externas.
Adotando um Data Mesh com a Databricks Data Intelligence Platform
A Databricks Data Intelligence Platform oferece uma base tecnológica para as organizações adotarem uma arquitetura de malha de dados e modernizarem sua abordagem de data management. A Databricks é uma plataforma nativa cloud para dados, análise de dados e AI que combina o desempenho e os recursos de um data warehouse com a flexibilidade e escalabilidade de baixo custo de um data lake moderno. Sua arquitetura aberta oferece flexibilidade na organização e estruturação dos dados, enquanto fornece uma infraestrutura de gerenciamento unificada para cargas de trabalho de dados e analítica.
A Databricks Platform é organizada em unidades chamadas workspaces compatíveis com um Data Mesh centrado no domínio. A Databricks é compatível com múltiplos workspaces, cada um correspondendo a um ou mais domínios. Cada um é de propriedade e gerenciado localmente e serve como o centro para a colaboração. Dentro do workspace, os domínios podem gerenciar produtos de dados usando uma infraestrutura de autoatendimento em toda a organização.
A Databricks oferece ferramentas para gestão de dados e processamento de dados ao longo de todo o ciclo de vida. Ela permite o processamento de dados em lotes e transmissão, permitindo que os usuários criem e gerenciem produtos de dados com mais eficiência. Ela também pode unificar os formatos de armazenamento de tabelas para que cada domínio possa usar seu formato preferido enquanto mantém uma abordagem unificada para o armazenamento de dados e o gerenciamento de metadados.
O Unity Catalog da Databricks, a única solução de governança de dados aberta e unificada do setor para dados e IA, é fundamental para um Data Mesh. O Unity Catalog permite o gerenciamento centralizado ao integrar governança, segurança, gerenciamento de usuários e metadados em workspaces. Ele oferece capacidades de catálogo de dados, como descobrimento e linhagem, além da aplicação de controles de acesso detalhados e registro de auditoria. Os controles de segurança e acesso são gerenciados uma única vez, o que simplifica a governança de dados. O Unity Catalog organiza dados em catálogos, permitindo o gerenciamento de produtos de dados específico para cada domínio.
A Databricks também oferece compartilhamento de dados interoperável de nível empresarial para apoiar a colaboração entre domínios internos e externos. O Delta Sharing permite que as organizações compartilhem dados com segurança e sem duplicação, independentemente da plataforma de computa ção ou da região da nuvem. O Delta Sharing oferece a base para uma ampla gama de atividades externas de compartilhamento de dados, incluindo a publicação ou aquisição de dados através de um marketplace de dados.
Com o Unity Catalog e o Delta Sharing, a Databricks oferece às organizações flexibilidade para organizar e gerenciar dados e analítica em escala. Os dados podem ser organizados em uma malha de dados ou em uma arquitetura multi-tenant, suportando tanto soluções de gestão de dados centralizadas quanto distribuídas.
A arquitetura Data Mesh oferece às empresas uma nova forma de abordar os dados e explorar completamente seu valor. A Databricks oferece uma base aberta e escalável para concretizar essa visão, garantindo interoperabilidade, custo-benefício, governança e simplicidade.