O que há de novo no Unity Catalog Compute

Criação simplificada de clusters, controle de acesso refinado em todos os lugares e credenciais de serviço!

Published: March 20, 2025

Produto7 min de leitura

por Stefania Leone, Jakob Mund, Martin Grund, Scott Van Woudenberg, Nemanja Borić, Kelly Albano e Maria Timbur

Summary

A criação de clusters agora é mais simples com modos de acesso mais claros: Padrão (Compartilhado), Dedicado (Usuário Único) e um novo modo Automático para seleção otimizada.
Os clusters dedicados agora permitem compartilhamento de grupo e mais controle sobre o acesso.
As Credenciais do Serviço de Catálogo Unity agora estão disponíveis para gerenciar o acesso a serviços de nuvem externos de forma segura.

Estamos tornando mais fácil do que nunca para os clientes da Databricks executar cargas de trabalho seguras e escaláveis do Apache Spark™ no Unity Catalog Compute com o Unity Catalog Lakeguard. Nos últimos meses, simplificamos a criação de clusters, fornecemos controle de acesso refinado em todos os lugares e aprimoramos as integrações de credenciais de serviço - para que você possa se concentrar na construção de cargas de trabalho, em vez de gerenciar a infraestrutura.

O que há de novo? Clusters padrão (anteriormente compartilhados) são o novo tipo de computação clássica padrão, já confiável por mais de 9.000 clientes Databricks. Clusters dedicados (anteriormente de usuário único) suportam controle de acesso refinado e agora podem ser compartilhados de forma segura com um grupo. Além disso, estamos introduzindo Credenciais de Serviço do Unity Catalog para autenticação contínua com serviços de terceiros.

Vamos mergulhar nisso!

Criação Simplificada de Clusters com Modo Automático

A Databricks oferece dois modos clássicos de acesso a computação protegidos pelo Unity Catalog Lakeguard:

Clusters Padrão A computação multiusuário padrão do Databricks para cargas de trabalho em Python, Scala e SQL. Clusters padrão são a arquitetura base para os produtos serverless da Databricks.
Clusters Dedicados: Computação projetada para cargas de trabalho que requerem acesso privilegiado à máquina, como ML, GPU e R, exclusivamente atribuídos a um único usuário ou grupo.

Junto com a atualização dos nomes dos modos de acesso, também estamos lançando o Modo Automático, um novo seletor padrão inteligente que escolhe automaticamente o modo de acesso de computação recomendado com base na configuração do seu cluster. A interface de usuário redesenhada simplifica a criação de clusters, incorporando as melhores práticas recomendadas pela Databricks, ajudando a configurar clusters de forma mais eficiente e com maior confiança. Se você é um usuário experiente ou novo no Databricks, essa atualização garante que você escolha automaticamente o cálculo ideal para suas cargas de trabalho. Por favor, consulte nossa documentação (AWS, Azure, GCP) para mais informações.

Clusters dedicados: Controle de acesso refinado e compartilhamento

Clusters dedicados usados para cargas de trabalho que requerem acesso privilegiado à máquina, agora suportam controle de acesso refinado e podem ser compartilhados com um grupo!

O controle de acesso refinado (FGAC) em clusters dedicados está GA

A partir do Databricks Runtime (DBR) 15.4, clusters dedicados suportam operações de LEITURA seguras em tabelas com mascaramento de linha e coluna (RLS/CM), visualizações, visualizações dinâmicas, visualizações materializadas e tabelas de streaming. Também estamos adicionando suporte para ESCRITAS em tabelas com RLS/CM usando MERGE INTO - inscreva-se para a pré-visualização privada!

Como o Spark busca dados excessivamente ao processar consultas que acessam dados protegidos pelo FGAC, tais consultas são processadas de forma transparente em computação em segundo plano sem servidor para garantir que apenas os dados que respeitam as permissões do UC sejam processados no cluster. A filtragem serverless tem preço baseado na taxa de trabalhos serverless - você pagará com base nos recursos de computação que usar, garantindo um modelo de precificação eficaz em termos de custo.

FGAC funcionará automaticamente ao usar DBR 15.4 ou posterior com computação Serverless habilitada em seu espaço de trabalho. Para orientação detalhada, consulte a documentação FGAC da Databricks (AWS, Azure, GCP).

Clusters de grupo dedicados para compartilhar computação de forma segura

Estamos animados em anunciar que clusters dedicados agora podem ser compartilhados com um grupo, para que, por exemplo, uma equipe de cientistas de dados possa compartilhar um cluster usando o tempo de execução de aprendizado de máquina e GPUs para desenvolvimento. Esta melhoria reduz o trabalho administrativo e diminui os custos ao eliminar a necessidade de provisionar clusters separados para cada usuário.

Devido ao acesso privilegiado à máquina, os clusters dedicados são clusters de "identidade única": eles são executados usando uma identidade de usuário ou grupo. Ao atribuir o cluster a um grupo, os membros do grupo podem se conectar automaticamente ao cluster. As permissões do usuário individual são ajustadas às permissões do grupo ao executar cargas de trabalho no cluster de grupo dedicado, permitindo o compartilhamento seguro do cluster entre os membros do mesmo grupo.

Os logs de auditoria para comandos executados em um cluster de grupo dedicado capturam tanto o grupo que executou o comando (run_as) e cujas permissões foram usadas para a execução, e o usuário que executou o comando (run_by), na nova coluna identity_metadata da tabela do sistema de auditoria, conforme ilustrado abaixo.

Clusters de grupo dedicados estão disponíveis em Public Preview ao usar DBR 15.4 ou posterior, em AWS, Azure e GCP. Como administrador de workspace, vá para a visão geral de Previews no seu workspace Databricks para optar e habilitá-los e começar a compartilhar clusters com sua equipe para uma colaboração e governança perfeitas.

Apresentando Credenciais de Serviço para computação do Unity Catalog

Credenciais do Serviço de Catálogo Unity, agora geralmente disponíveis em AWS, Azure, GCP, fornecem uma maneira segura e simplificada de gerenciar o acesso a serviços de nuvem externos (por exemplo, AWS Secrets Manager, Azure Functions, GCP Secrets Manager) diretamente do Databricks. As Credenciais do Serviço UC eliminam a necessidade de perfis de instância por base de cálculo. Isso aumenta a segurança, reduz as configurações incorretas e permite o controle de acesso por usuário (credenciais de serviço) em vez de controle de acesso por máquina para serviços de nuvem (perfis de instância).

As credenciais de serviço podem ser gerenciadas via UI, API ou Terraform. Eles suportam toda a computação do Unity Catalog (clusters padrão e dedicados, armazéns SQL, Delta Live Tables (DLT) e computação sem servidor). Uma vez configurado, os usuários podem acessar os serviços de nuvem sem modificar o código existente, simplificando as integrações e a governança.

Para experimentar as Credenciais de Serviço UC, vá para Dados Externos > Credenciais no Databricks Catalog Explorer para configurar as credenciais de serviço. Você também pode automatizar o processo usando a API da Databricks ou Terraform. Nossas páginas de documentação oficial (AWS, Azure, GCP) fornecem instruções detalhadas.

O que vem a seguir

Nos próximos meses, temos algumas atualizações empolgantes chegando:

Estamos estendendo o suporte para controles de acesso refinados em clusters dedicados para poder escrever em tabelas com RLS/CM usando MERGE INTO - inscreva-se para a pré-visualização privada!
Configuração de nó único para clusters padrão permitirá que você configure pequenos trabalhos, clusters ou pipelines para usar apenas uma máquina, reduzindo o tempo de inicialização e economizando custos.
Novos recursos para UDFs Python UC (disponível em toda a computação UC)
- Use dependências personalizadas para UDFs Python UC, do PyPi ou de um wheel dos volumes UC ou armazenamento em nuvem
- Autenticação segura para serviços em nuvem usando credenciais de serviço UC
- Melhore o desempenho processando lotes de dados usando UDFs vetorizadas
Vamos expandir o suporte ao ML em clusters padrão também! Você poderá executar cargas de trabalho SparkML em clusters padrão - inscreva-se para a pré-visualização privada.
Atualizações para Volumes UC:
- A entrega de logs de cluster para volumes (AWS, Azure, GCP) está disponível em pré-visualização pública nas 3 nuvens. Agora você pode configurar a entrega de log de cluster para um destino de Volume do Catálogo Unity para clusters habilitados para UC com modo de acesso Compartilhado ou de Único usuário. Você pode usar a interface de usuário ou a API para configuração.
- Você pode agora fazer upload e download de arquivos de qualquer tamanho para UC Volumes usando o Python SDK. O limite anterior de 5 GB foi removido - sua única restrição é o limite máximo de tamanho do provedor de nuvem. Este recurso está atualmente em Visualização Privada, com suporte para SDKs Go e Java, bem como a API de Arquivos, chegando em breve.

Introdução

Confira essas capacidades usando o último lançamento do Databricks Runtime. Para saber mais sobre as melhores práticas de computação para executar cargas de trabalho do Apache Spark™, consulte os guias de recomendação de configuração de computação (AWS, Azure, GCP).

(This blog post has been translated using AI-powered tools) Original Post

O que vem a seguir?

June 11, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

November 25, 2024/9 min de leitura