A migração para a nuvem é necessária em uma nova era de varejo orientado a dados
Redução no tempo de criação do pipeline de dados
Cargas de trabalho ETL mais rápidas
A Columbia é uma empresa orientada por dados: integra dados de todos os sistemas de negócios para gerenciar operações de atacado e varejo para todas as suas marcas. No entanto, sua infraestrutura legada de ETL e análise era insuficiente para dar suporte a casos de uso em batch e em tempo real em escala, impedindo-a de atender às demandas das equipes de negócios e dados. Desde a migração para a Databricks, a empresa processa e prepara dados de forma mais eficiente e confiável, produzindo insights valiosos que impulsionam decisões de negócios mais inteligentes.
Sistemas de análise legados lentos e caros
À medida que o setor de varejo se digitaliza rapidamente em todos os canais, a Columbia é pioneira na exploração de dados em todas as áreas de negócios: vendas, compras, cadeia de suprimentos e otimização de produtos. Por exemplo, a empresa queria entender como aproveitar insights relacionados à geografia, afinidade com a marca, margens brutas e custos para melhorar as operações e tomar decisões mais inteligentes. Também estava procurando usar os dados de envolvimento do cliente a partir de avaliações e comentários para melhorar as campanhas de marketing e o suporte ao cliente.
A empresa tinha uma grande quantidade de dados na ponta dos dedos, mas o processamento de dados em batch ou em tempo real ficou aquém dos acordos internos de nível de serviço para análises downstream e relatórios. A equipe de gerenciamento de informações corporativas (EIM) estava sendo prejudicada por ferramentas ETL especializadas e data warehouses desatualizados, segmentados e poco escaláveis. Eles queriam liberar o acesso a dados selecionados para atender às necessidades de várias equipes de dados e partes interessadas nos negócios, mas estavam lutando para criar pipelines de dados necessários. Além disso, sua infraestrutura era muito rígida e cara para manter e expandir, o que era um problema diante das crescentes solicitações de acesso aos dados.
“Às vezes, nossos sistemas legados levavam semanas para processar dados para fins de análise e geração de relatórios”, explicou Lara Minor, gerente sênior de dados corporativos da Columbia Sportswear. “Portanto, não pudemos oferecer suporte a certos casos de uso, uma fonte real de insatisfação para analistas e funções de negócios.”
De executivos a analistas de dados e data scientists, muitas equipes cobiçam dados de toda a empresa. Assim, foi necessário mudar a plataforma de sistema de análise e migrar para a nuvem para ganhar agilidade e rentabilidade em escala. Também precisavam simplificar a preparação de dados e o ETL, ao mesmo tempo em que ofereciam às partes interessadas acesso mais fácil e seguro aos dados de que precisavam para tomar decisões mais inteligentes.
Disponibilizar dados para quem precisa, o mais rápido possível
Ao adotar o Microsoft Azure, a equipe de EIM da Columbia obteve acesso ao Azure Databricks e ao Delta Lake para atualizar seus recursos de análise e processamento de dados. “Queríamos uma solução escalável, elástica e mais econômica”, explica Lara Minor. “Azure e Databricks atendem a esses três critérios.”
Com a Databricks, a equipe agora está criando pipelines ETL de alto desempenho que podem lidar com cargas de trabalho em batch e em tempo real. Os pipelines alimentam o Delta Lake, que fornece acesso seguro a dados organizados. “O Delta Lake oferece recursos ACID que simplificam as operações de pipeline de dados para melhorar a confiabilidade e a consistência dos dados”, explicou Minor. “Ao mesmo tempo, recursos como cache e indexação automática permitem acesso eficiente e de alto desempenho aos dados.”
Depois que os dados são ingeridos, eles são roteados para diferentes endpoints corporativos, dependendo do usuário final e do caso de uso. Por exemplo, os analistas de negócios podem se conectar diretamente ao PowerBI para produzir relatórios de vendas que exigem informações sob demanda quase em tempo real. Eles podem então criar notebooks interativos da Databricks para disponibilizar esses dados para data scientists que explorarão e treinarão modelos. Os dados também podem ser enviados para uma ferramenta de data warehousing para casos de uso que combinam baixa latência e high concurrency. Todas as equipes que precisam de acesso aos dados agora podem ter total confiança em sua confiabilidade e consistência.
Pipelines de dados e insights mais rápidos
Reduzir os tempos de processamento é fundamental para fornecer insights rapidamente aos negócios. A Databricks permitiu que a equipe de EIM da Columbia acelerasse o ETL e a preparação de dados, reduzindo o tempo de criação do pipeline de ETL em 70% e o tempo de processamento da carga de trabalho ETL de quatro horas para apenas cinco minutos – isso é 48 vezes mais rápido do que antes.
Equipadas com uma plataforma escalável e eficiente capaz de processar cargas em batch e em tempo real, todas as categorias de usuários de dados agora têm a capacidade de tomar melhores decisões que beneficiam as operações de negócios, sem depender da equipe de EIM.
“Esta plataforma tem uma grande vantagem: os usuários a aprendem muito rapidamente. Todos os dados são reunidos lá, e cada vez mais unidades de negócios estão usando a plataforma de maneira self-service, o que antes era impossível.”, afirmou Lara Minor. “Estou extremamente impressionada com o impacto positivo que a Databricks teve na Columbia.”
Com dados selecionados na ponta dos dedos, os casos de uso – desde a previsão das demandas dos consumidores até a análise de avaliações de produtos para aumentar a satisfação do cliente – estão sendo impulsionados por dados. Como Lara Minor também acredita, não há limite para como a equipe na Columbia pode usar os dados para tomar decisões mais inteligentes e moldar o futuro dos negócios.