Estamos animados para anunciar a Disponibilidade Geral do Hive Metastore (HMS) e da Federação AWS Glue no Unity Catalog! Essa nova capacidade permite que o Unity Catalog acesse e governe de maneira contínua as tabelas armazenadas nos Metastores Hive - seja auto-hospedado ou hospedado pela Databricks - bem como o AWS Glue. Representa um marco importante em nossa Federação Lakehouse visão, que reúne fontes de dados externas, incluindo bancos de dados, data warehouses e catálogos, sob um framework de governança unificado com Unity Catalog. Agora você pode descobrir, consultar e gerenciar todos os seus dados a partir de uma única plataforma centralizada, independentemente do formato e localização. Isso não apenas promove o acesso aberto e a colaboração em toda a sua organização, mas também estende a inteligência de dados a todas as fontes de dados.
Neste blog, exploraremos os benefícios do HMS e da Federação AWS Glue, explicaremos como funciona e forneceremos orientações para começar.
O HMS tem sido um padrão inicial para catalogação de dados para uso em sistemas de big data, e embora forneça funcionalidades fundamentais, elas não são idealmente adequadas para dados modernos e cargas de trabalho de IA que exigem governança abrangente, incluindo controles de acesso refinados em linhas e colunas, linhagem, monitoramento e auditoria em todos os dados e ativos de IA em um só lugar.
O Unity Catalog aborda essas deficiências fornecendo a única solução unificada e aberta de governança do setor para gerenciar todos os dados e ativos de IA. Ele permite que as organizações criem um catálogo empresarial que reúne arquivos, tabelas, modelos de ML, ferramentas de IA, notebooks e métricas, todos governados com controles de acesso refinados, linhagem, monitoramento, auditoria e compartilhamento entre plataformas em uma única solução. Mais de 10.000+ empresas agora estão utilizando o Unity Catalog para governar seu patrimônio de dados.
HMS e AWS Glue Federation oferecem benefícios significativos para organizações com HMS profundamente incorporado em sua arquitetura de dados. Para aqueles com implantações de longa data do HMS ou AWS Glue, essa capacidade oferece um caminho contínuo para aproveitar os recursos avançados do Catálogo Unity sobre os dados armazenados no metastore do HMS ou Glue. Garante a continuidade operacional ao permitir que as organizações mantenham fluxos de trabalho legados enquanto atualizam gradualmente os dados e espaços de trabalho existentes para o Unity Catalog.
Os principais benefícios incluem:
A utilização da Federação HMS no Catálogo Unity possibilitou uma migração incremental que minimizou a interrupção para nossos clientes. Nossa parceria com a Databricks foi crucial na avaliação das necessidades de curto prazo e dos objetivos de longo prazo. Ao aproveitar as capacidades do Catálogo Unity desde cedo, criamos uma plataforma de dados escalável e eficiente com governança e controle de acesso aprimorados como parte de nossa jornada de modernização— Praveena Edward, Engenheira de Dados Líder, Nationwide
Temos anos de conjuntos de dados que estão catalogados em um Hive Metastore externo. A Federação HMS nos permite aproveitar imediatamente as funcionalidades exclusivas do Unity Catalog, como controle de acesso robusto e ferramentas de IA de autoatendimento através do Genie Spaces, sem a sobrecarga de migrar todas essas tabelas para o Unity Catalog— James Davidheiser, Líder Técnico, Infraestrutura de Dados, Asana
O Unity Catalog agora inclui conectores de federação para Hive Metastore (HMS) e AWS Glue, atuando como uma camada de tradução entre o Unity Catalog e seus metastores externos. Esses conectores permitem que você monte catálogos HMS inteiros (internos e externos) ou AWS Glue como catálogos estrangeiros dentro do Unity Catalog, fazendo com que pareçam objetos nativos. Você pode definir controles de acesso refinados, visualizar linhagem, realizar auditorias e consultar tabelas gerenciadas pelo HMS ou AWS Glue usando o motor Databricks. A federação suporta tanto a leitura quanto a escrita em tabelas no HMS interno dentro dos espaços de trabalho do Databricks, enquanto oferece acesso somente leitura para tabelas no HMS externo e AWS Glue
Com essa capacidade, você pode ler todas as tabelas no HMS e AWS Glue—Parquet, Delta e Iceberg (em breve na Prévia Pública)—permitindo que você acesse e governe todas as suas tabelas de maneira contínua.
Confira o tutorial em vídeo abaixo para explorar a AWS Glue e a Federação HMS em ação.
O lançamento GA vem com os seguintes recursos adicionais:
Também adicionamos suporte de Pré-visualização Pública para leitura de clones superficiais Delta definidos no Hive metastore, bem como suporte de Pré-visualização Privada para leitura de tabelas com suporte a montagem DBFS em vários espaços de trabalho (por favor, entre em contato com o representante da sua conta Databricks para se inscrever!).
Ao adotar o Unity Catalog como a pedra angular de sua arquitetura Lakehouse, você pode desbloquear o poder de uma implementação de governança unificada e aberta que abrange todo o seu patrimônio de dados e IA.
(This blog post has been translated using AI-powered tools) Original Post