Data Sharing
O que é compartilhamento de dados?
O compartilhamento de dados é a capacidade de disponibilizar os mesmos dados para vários usuários. A quantidade de dados cada vez maior se tornou um ativo estratégico crítico para qualquer empresa. Compartilhar dados — dentro das unidades de negócios e também consumir dados de fontes externas — é uma tecnologia fundamental para novas oportunidades de negócios. Compartilhar dados permite que você colabore com parceiros, estabeleça novas parcerias e monetize seus dados para gerar novos fluxos de receita.
Continue explorando
Quais são os tipos de compartilhamento de dados?
Existem muitos tipos diferentes de compartilhamento de dados, incluindo compartilhamento dentro de uma organização e fora dela, compartilhamento individual, compartilhamento com múltiplos destinatários, compartilhamento público e privado. As empresas podem usar marketplaces de dados públicos ou privados para melhorar o compartilhamento de dados e a colaboração, bem como Clean Rooms de dados que protegem a privacidade para dados sensíveis, como informações de identificação pessoal (PII).
Quais são os desafios do compartilhamento de dados?
O compartilhamento de dados é fundamental para as empresas modernas, mas pode apresentar desafios. Um dos desafios mais críticos é a segurança. O compartilhamento apenas dos dados certos com as pessoas certas dentro do contexto certo requer políticas estratégicas, ferramentas eficazes e processos intencionais que sejam seguidos de forma consistente. A governança de dados, que garante que os dados sejam usados em conformidade com normas específicas, é outro desafio. Além disso, problemas técnicos e estruturais na gestão de dados, como a administração de múltiplos sistemas e soluções legadas ou proprietárias, podem criar barreiras para o compartilhamento de dados de forma eficiente e eficaz.
Quais são os benefícios do compartilhamento de dados em uma organização?
O compartilhamento de dados é crucial para a evolução do modelo de negócios orientado por dados. A Gartner prevê que, até 2024, as organizações que promovem o compartilhamento de dados superarão seus concorrentes na maioria das métricas de valor de negócios. O compartilhamento de dados elimina os silos de dados, resultando em maior eficiência e transparência, além de aumentar a colaboração dentro de uma organização e com parceiros. O compartilhamento de dados também oferece às organizações um tempo mais rápido para obter insights que ajudam a melhorar o desempenho. Finalmente, o compartilhamento de dados possibilita fluxos de receita ao permitir que uma organização ofereça novos produtos ou serviços de dados.
Soluções tradicionais de compartilhamento de dados
Tecnologias legadas, como SFTP (protocolo de transferência segura de arquivos), e-mail ou APIs (interface de programação de aplicativos), permitem a implementação de soluções desenvolvidas internamente e independentes do fornecedor que funcionarão tanto on-premises quanto na nuvem. No entanto, elas costumam ser caras para gerenciar e manter e estão se tornando cada vez mais difíceis de proteger e governar à medida que os requisitos modernos de dados evoluem. O uso dessas soluções pode tornar o compartilhamento de dados complexo e demorado, e elas não são escaláveis para acomodar grandes conjuntos de dados.
O armazenamento de objetos na nuvem é uma boa opção porque sua escalabilidade oferece suporte ao crescimento ilimitado de dados. É amplamente disponível, barato e confiável, mas tem desvantagens. Por exemplo, os destinatários devem estar na mesma nuvem para acessar os dados, e os processos de segurança e governança podem ser complicados. Além disso, o compartilhamento de grandes volumes de dados via armazenamento em nuvem consome tempo, é trabalhoso e quase impossível de escalar.
Soluções de compartilhamento de dados comerciais/de fonte fechada
As soluções de compartilhamento de dados estão integradas a produtos de fornecedores, como Oracle, Amazon Redshift ou Snowflake. Essas soluções são convenientes para uso em um produto e permitem que os usuários compartilhem dados facilmente com qualquer pessoa que use a mesma plataforma. No entanto, os usuários não conseguem compartilhar dados com usuários de soluções concorrentes, e os fornecedores frequentemente limitam a escalabilidade. Com essas soluções, os dados precisam ser carregados na plataforma, o que requer extração, transformação e carregamento (ETL) e gera cópias de dados. Todas essas restrições geram complexidade, problemas de controle de versão e custos mais elevados para o compartilhamento de dados com destinatários em diferentes plataformas de nuvem.
Soluções modernas e de código aberto para compartilhamento de dados
Na realidade atual de infraestruturas às vezes complexas com múltiplas plataformas, ter uma solução de compartilhamento de dados de código aberto pode proporcionar uma flexibilidade valiosa. As soluções baseadas em código aberto não têm a dependência de produtos de fornecedores. Elas oferecem muitos benefícios, incluindo integrações com frameworks populares de processamento de dados de código aberto desenvolvidos pela comunidade. Os protocolos abertos também facilitam a integração de clientes comerciais, como ferramentas de BI.
Marketplaces de dados
Os marketplaces de dados permitem o compartilhamento e a monetização de dados, sendo ferramentas essenciais para compartilhamento e colaboração. Os marketplaces podem assumir diferentes formas, como:
- Marketplaces internos para compartilhamento de dados dentro de uma empresa
- Marketplaces privados para compartilhamento de dados com parceiros confiáveis
- Marketplaces públicos que conectam fornecedores e consumidores de dados
Os marketplaces de dados públicos oferecem aos participantes a oportunidade de comprar e vender dados e serviços relacionados em um ambiente seguro, oferecendo alta qualidade e consistência diretamente dos provedores de dados. As empresas podem usar marketplaces para adquirir dados de terceiros para enriquecer seus dados existentes ou oferecer e monetizar novos produtos e serviços de dados.
Clean Rooms de dados
Os Clean Rooms de dados permitem que as empresas colaborem facilmente em um ambiente seguro e governado com clientes e parceiros em qualquer nuvem, de forma segura e com privacidade. Em um Clean Room de dados, vários participantes podem combinar seus dados primários e realizar análises sem o risco de expor seus dados a outros participantes. Os participantes têm controle total sobre seus dados e podem decidir quais participantes podem realizar análises sem expor dados sensíveis, como informações pessoalmente identificáveis (PII).
Delta Sharing
O Delta Sharing é o primeiro protocolo aberto do mundo para compartilhamento seguro de dados. Compartilhe dados facilmente dentro e fora da sua organização, independentemente da plataforma de computação usada.
- Compartilhe dados em tempo real diretamente: compartilhe facilmente dados em tempo real existentes no Delta Lake sem copiá-los para outros sistemas.
- Compatível com uma variedade de clientes: os destinatários dos dados podem acessar diretamente o Delta Sharing do Pandas, Apache Spark™, Rust e outros sistemas sem precisar pré-implantar uma plataforma de compute específica, reduzindo o atrito no envio de dados aos usuários.
- Segurança e governança: o Delta Sharing facilita o gerenciamento, o acompanhamento e a auditoria do acesso aos dados.
- Escalabilidade: aproveite sistemas de armazenamento em nuvem, como S3, ADLS e GCS, para compartilhar grandes conjuntos de dados de maneira confiável e eficiente.
Delta Sharing no Databricks
Os usuários da Databricks podem integrar nativamente o Delta Sharing ao Unity Catalog. Isso proporciona uma experiência simplificada para compartilhar dados dentro e fora das organizações. Os destinatários não precisam usar a plataforma Databricks ou a mesma nuvem. Na verdade, eles nem precisam estar em uma nuvem!
O Delta Sharing oferece vários benefícios-chave, como:
- Compartilhamento aberto entre plataformas
- Compartilhamento de dados em tempo real sem replicação
- Governança centralizada
- A capacidade de compartilhar produtos de dados, incluindo modelos de AI, dashboards e notebooks, com maior flexibilidade
- Menor custo
- Redução do tempo para gerar valor
O Delta Sharing é um ecossistema aberto de parceiros comerciais e de código aberto que continua crescendo. A Databricks recentemente expandiu as parcerias do Delta Sharing para incluir Cloudflare, Dell, Oracle e Twilio.
Saiba mais sobre o compartilhamento de dados no Databricks
Com o Delta Sharing, você compartilha dados dinâmicos com facilidade e segurança entre plataformas, nuvens e regiões. O Delta Sharing já está transformando as atividades de compartilhamento de dados para empresas em diversos setores. Comece hoje mesmo com o Databricks Delta Sharing.
Recursos adicionais
- Compartilhamento de dados no Databricks
- Demonstração do Delta Sharing
- Webinar: Compartilhamento seguro e aberto traz novo valor para seus dados
- e-book: Uma nova abordagem para o Data Sharing (segunda edição)
- Delta Sharing - delta.io
- Delta Sharing: Um protocolo aberto para o compartilhamento seguro de dados
- Webinar sobre Delta Sharing Databricks ODSC