Estamos tornando mais fácil do que nunca para os clientes da Databricks executar cargas de trabalho seguras e escaláveis do Apache Spark™ no Unity Catalog Compute com o Unity Catalog Lakeguard. Nos últimos meses, simplificamos a criação de clusters, fornecemos controle de acesso refinado em todos os lugares e aprimoramos as integrações de credenciais de serviço - para que você possa se concentrar na construção de cargas de trabalho, em vez de gerenciar a infraestrutura.
O que há de novo? Clusters padrão (anteriormente compartilhados) são o novo tipo de computação clássica padrão, já confiável por mais de 9.000 clientes Databricks. Clusters dedicados (anteriormente de usuário único) suportam controle de acesso refinado e agora podem ser compartilhados de forma segura com um grupo. Além disso, estamos introduzindo Credenciais de Serviço do Unity Catalog para autenticação contínua com serviços de terceiros.
Vamos mergulhar nisso!
A Databricks oferece dois modos clássicos de acesso a computação protegidos pelo Unity Catalog Lakeguard:
Junto com a atualização dos nomes dos modos de acesso, também estamos lançando o Modo Automático, um novo seletor padrão inteligente que escolhe automaticamente o modo de acesso de computação recomendado com base na configuração do seu cluster. A interface de usuário redesenhada simplifica a criação de clusters, incorporando as melhores práticas recomendadas pela Databricks, ajudando a configurar clusters de forma mais eficiente e com maior confiança. Se você é um usuário experiente ou novo no Databricks, essa atualização garante que você escolha automaticamente o cálculo ideal para suas cargas de trabalho. Por favor, consulte nossa documentação (AWS, Azure, GCP) para mais informações.
Clusters dedicados usados para cargas de trabalho que requerem acesso privilegiado à máquina, agora suportam controle de acesso refinado e podem ser compartilhados com um grupo!
A partir do Databricks Runtime (DBR) 15.4, clusters dedicados suportam operações de LEITURA seguras em tabelas com mascaramento de linha e coluna (RLS/CM), visualizações, visualizações dinâmicas, visualizações materializadas e tabelas de streaming. Também estamos adicionando suporte para ESCRITAS em tabelas com RLS/CM usando MERGE INTO - inscreva-se para a pré-visualização privada!
Como o Spark busca dados excessivamente ao processar consultas que acessam dados protegidos pelo FGAC, tais consultas são processadas de forma transparente em computação em segundo plano sem servidor para garantir que apenas os dados que respeitam as permissões do UC sejam processados no cluster. A filtragem serverless tem preço baseado na taxa de trabalhos serverless - você pagará com base nos recursos de computação que usar, garantindo um modelo de precificação eficaz em termos de custo.
FGAC funcionará automaticamente ao usar DBR 15.4 ou posterior com computação Serverless habilitada em seu espaço de trabalho. Para orientação detalhada, consulte a documentação FGAC da Databricks (AWS, Azure, GCP).
Estamos animados em anunciar que clusters dedicados agora podem ser compartilhados com um grupo, para que, por exemplo, uma equipe de cientistas de dados possa compartilhar um cluster usando o tempo de execução de aprendizado de máquina e GPUs para desenvolvimento. Esta melhoria reduz o trabalho administrativo e diminui os custos ao eliminar a necessidade de provisionar clusters separados para cada usuário.
Devido ao acesso privilegiado à máquina, os clusters dedicados são clusters de "identidade única": eles são executados usando uma identidade de usuário ou grupo. Ao atribuir o cluster a um grupo, os membros do grupo podem se conectar automaticamente ao cluster. As permissões do usuário individual são ajustadas às permissões do grupo ao executar cargas de trabalho no cluster de grupo dedicado, permitindo o compartilhamento seguro do cluster entre os membros do mesmo grupo.
Os logs de auditoria para comandos executados em um cluster de grupo dedicado capturam tanto o grupo que executou o comando (run_as) e cujas permissões foram usadas para a execução, e o usuário que executou o comando (run_by), na nova coluna identity_metadata da tabela do sistema de auditoria, conforme ilustrado abaixo.
Clusters de grupo dedicados estão disponíveis em Public Preview ao usar DBR 15.4 ou posterior, em AWS, Azure e GCP. Como administrador de workspace, vá para a visão geral de Previews no seu workspace Databricks para optar e habilitá-los e começar a compartilhar clusters com sua equipe para uma colaboração e governança perfeitas.
Credenciais do Serviço de Catálogo Unity, agora geralmente disponíveis em AWS, Azure, GCP, fornecem uma maneira segura e simplificada de gerenciar o acesso a serviços de nuvem externos (por exemplo, AWS Secrets Manager, Azure Functions, GCP Secrets Manager) diretamente do Databricks. As Credenciais do Serviço UC eliminam a necessidade de perfis de instância por base de cálculo. Isso aumenta a segurança, reduz as configurações incorretas e permite o controle de acesso por usuário (credenciais de serviço) em vez de controle de acesso por máquina para serviços de nuvem (perfis de instância).
As credenciais de serviço podem ser gerenciadas via UI, API ou Terraform. Eles suportam toda a computação do Unity Catalog (clusters padrão e dedicados, armazéns SQL, Delta Live Tables (DLT) e computação sem servidor). Uma vez configurado, os usuários podem acessar os serviços de nuvem sem modificar o código existente, simplificando as integrações e a governança.
Para experimentar as Credenciais de Serviço UC, vá para Dados Externos > Credenciais no Databricks Catalog Explorer para configurar as credenciais de serviço. Você também pode automatizar o processo usando a API da Databricks ou Terraform. Nossas páginas de documentação oficial (AWS, Azure, GCP) fornecem instruções detalhadas.
Nos próximos meses, temos algumas atualizações empolgantes chegando:
Confira essas capacidades usando o último lançamento do Databricks Runtime. Para saber mais sobre as melhores práticas de computação para executar cargas de trabalho do Apache Spark™, consulte os guias de recomendação de configuração de computação (AWS, Azure, GCP).
(This blog post has been translated using AI-powered tools) Original Post