Willis Towers Watson (WTW) é uma empresa multinacional que oferece uma ampla gama de serviços em corretagem de seguros comerciais, gestão de riscos, benefícios para funcionários e análise atuarial - atendendo a 91% das empresas da Fortune Global 500. A divisão de Trabalho e Recompensas da WTW fornece insights baseados em dados, soluções tecnológicas e serviços para apoiar as decisões de contratação e retenção dos clientes através de dados valiosos baseados no mercado.
Nosso negócio principal depende de robustas capacidades de transformação e governança de dados. No coração disso está o nosso motor de cálculo proprietário, que alimenta nossos relatórios de pesquisa salarial. Recentemente, começamos uma migração estratégica do SQL Server em VMs Azure para o Azure Databricks, desbloqueando significativas vantagens comerciais. Essa mudança acelerou a geração de relatórios em 10x, reduziu nossos ambientes de dados em 50% e cortou os custos de armazenamento para um terço de nossas despesas anteriores com o SQL Server.
O Catálogo Unity da Databricks tem sido um facilitador chave desta transformação, redefinindo nossa abordagem para a governança e gestão de dados. Neste blog, compartilharemos os desafios que encontramos, como a Databricks e o Catálogo Unity nos ajudaram a superá-los, e o impacto que esta transformação teve em nosso negócio.
Antes de implementar o Databricks e o Unity Catalog, enfrentamos vários desafios técnicos e organizacionais decorrentes de limitações em nossa tecnologia existente.
Escalabilidade limitada aumentando custos, ETL lento e atraso no tempo de entrada no mercado: Nosso negócio de cálculo de relatórios é sazonal, com períodos de pico distintos para aquisição de dados e geração de relatórios. No entanto, nosso servidor de banco de dados legado não tinha escalabilidade, forçando-nos a provisionar grandes instâncias de banco de dados durante todo o ano - resultando em tempo ocioso significativo e custos desnecessários. A escalabilidade dos servidores web e de aplicativos durante os períodos de pico exigia uma lógica personalizada em nosso código de aplicativo. Os maiores relatórios da WTW geralmente levavam entre 10 a 36 horas para serem gerados, especialmente para nossas pesquisas mais críticas. Esses longos tempos de execução criavam atrito nas relações com os clientes e aumentavam os custos operacionais ao desacelerar outros processos.
Design de esquema inflexível na implementação do SQL Server legado limitando a agilidade: Nosso uso de modelos de dados relacionais rígidos dificultava a adaptação às necessidades de dados em evolução. Essa inflexibilidade levou a altos custos de desenvolvimento e manutenção.
Duplicação de dados e ambiente complicando a governança: Mantivemos dados em mais de cinco ambientes para atender às necessidades de processamento e conformidade regional, incorrendo em mais de $300K anualmente. Para garantir uma rápida recuperação de dados, contávamos com aproximadamente 70 TB de discos de armazenamento P40 no SQL Server em VMs Azure - aumentando nossas despesas de infraestrutura.
Desafios de conformidade na gestão de dados regionais: Como uma organização global, a WTW deve aderir às regulamentações regionais de privacidade de dados e conformidade. Devido às limitações em nosso sistema anterior, optamos por não coletar informações pessoalmente identificáveis (PII) para evitar maior complexidade. Além disso, todos os dados eram armazenados em uma única região, limitando nossa capacidade de atender aos requisitos de conformidade localizados.
Insuficiente linhagem de dados e auditoria: Não tínhamos ferramentas automatizadas para rastrear a linhagem de dados e auditar as alterações - ambas críticas para a solução de problemas e compreensão do impacto a jusante das modificações de dados.
Em nosso sistema de próxima geração construído com Databricks e Unity Catalog, já estamos percebendo vários benefícios que permitem que nosso negócio escale de forma mais eficaz.
Geração de relatórios 10x mais rápida impulsiona o crescimento do negócio: Relatórios que antes levavam 10 horas para serem gerados agora são concluídos em menos de 50 minutos - uma melhoria de 10x no tempo de cálculo. A maioria dos relatórios está vendo ganhos de desempenho de 5x a 20x. Esta aceleração é especialmente valiosa para nossos maiores relatórios, que costumavam levar mais de um dia para serem processados. A geração mais rápida de relatórios diminui o tempo de entrada no mercado, desbloqueia oportunidades de upsell ao entregar insights aos clientes de forma mais rápida e frequente, e libera nossa equipe para se concentrar em novos compromissos com clientes.
Economia de custos de 30% através da eficiente gestão de dados do Catálogo Unity: Ao centralizar o acesso aos dados com o Catálogo Unity, reduzimos os custos de armazenamento e infraestrutura em 30%. Anteriormente, nosso sistema dependia de seis ambientes separados para atender às necessidades de conformidade e operacionais. Hoje, um único espaço de trabalho Databricks pode acessar sem problemas vários catálogos em diferentes regiões, eliminando a duplicação e simplificando a governança. Além disso, o armazenamento de dados em tabelas gerenciadas pelo Catálogo Unity - com compressão integrada e otimizações de desempenho - reduziu os custos de armazenamento para um terço de nossas despesas anteriores com o SQL Server. Essas tabelas gerenciadas também simplificam as operações ao otimizar automaticamente os layouts de tabela com base nos padrões de consulta.
Melhoria da conformidade e capacidades de residência de dados: Agora podemos atender aos requisitos de privacidade da União Europeia, Alemanha, China, Califórnia e outras jurisdições usando a arquitetura flexível do Catálogo Unity, juntamente com a disponibilidade global da Databricks em regiões Azure. Armazenar dados mais próximos de onde são acessados tem o potencial de reduzir os custos de saída da nuvem e melhorar o desempenho dos relatórios. Os controles de acesso refinados do Catálogo Unity e a integração com os grupos Entra ID também nos dão um melhor controle sobre o PII - beneficiando tanto nossa postura de conformidade quanto nossos clientes.
Melhor auditabilidade e linhagem aumentou a produtividade do desenvolvedor em 33%: As funcionalidades de linhagem do Catálogo Unity, juntamente com as ferramentas de orquestração e as capacidades de IA da Databricks, permitem uma melhor análise exploratória de dados e uma compreensão mais profunda de nossos conjuntos de dados - especialmente à medida que novos relatórios são desenvolvidos. Com base em nossas estimativas, relatórios que antes levavam até três semanas para serem desenvolvidos agora levam duas semanas ou menos.
O treinamento da Databricks acelerou a integração da equipe: A disponibilidade de programas de treinamento gratuitos e pagos da Databricks permitiu que equipes sem experiência prévia em Databricks ou Python se tornassem produtivas em 2-3 meses. Ao final de oito meses, a maioria dos desenvolvedores atingiu aproximadamente 75% de proficiência.
A migração para Databricks e Unity Catalog tem sido um divisor de águas para a divisão de Trabalho & Recompensas na Willis Towers Watson. Nós simplificamos a governança de dados, melhoramos a conformidade, reduzimos os custos e aceleramos dramaticamente a geração de relatórios.
Olhando para o futuro, planejamos aproveitar as capacidades impulsionadas por IA da Databricks - como o AI/BI Genie e as soluções de ML automatizadas - para construir novos produtos orientados a dados. Com uma infraestrutura de dados modernizada em vigor, estamos bem posicionados para impulsionar a inovação, melhorar as experiências do cliente e desbloquear novas oportunidades de receita.
(This blog post has been translated using AI-powered tools) Original Post