Na Home Trust, medimos o sucesso em termos de relacionamentos. Seja trabalhando com indivíduos ou empresas, nos esforçamos para ajudá-los a se manterem “Prontos para o que vem a seguir.”
Manter um passo à frente das necessidades financeiras de nossos clientes significa manter seus dados prontamente disponíveis para análises e relatórios em um armazém de dados corporativo, que chamamos de Plataforma de Análise e Relatórios Domésticos (HARP). Nossa equipe de dados agora usa a Plataforma de Inteligência de Dados Databricks e o dbt Cloud para construir pipelines de dados eficientes para que possamos colaborar em cargas de trabalho de negócios e compartilhá-las com os sistemas parceiros críticos fora da empresa. Neste blog, compartilhamos os detalhes de nosso trabalho com Databricks e dbt e delineamos os casos de uso que estão nos ajudando a ser o parceiro que nossos clientes merecem.
Quando se trata de dados, o HARP é o nosso cavalo de batalha. Mal conseguiríamos administrar nosso negócio sem ele. Esta plataforma engloba ferramentas de análise como Power BI, Alteryx e SAS. Por anos, usamos o IBM DataStage para orquestrar as diferentes soluções dentro do HARP, mas essa solução ETL legada eventualmente começou a ceder sob seu próprio peso. O processamento em lote foi executado durante a noite, terminando tão tarde quanto às 7:00 da manhã e nos deixando pouco tempo para depurar os dados antes de enviá-los para organizações parceiras. Tivemos dificuldades para cumprir nossos acordos de nível de serviço com nossos parceiros.
Não foi uma decisão difícil mudar para a Plataforma de Inteligência de Dados Databricks. Trabalhamos de perto com a equipe do Databricks para começar a construir nossa solução - e tão importante quanto, planejar uma migração que minimizaria as interrupções. A equipe da Databricks recomendou que usássemos o DLT-META, um framework que trabalha com Databricks Delta Live Tables. O DLT-META serviu como nossa especificação de fluxo de dados, o que nos permitiu automatizar os pipelines de dados bronze e prata que já tínhamos em produção.
Ainda enfrentamos o desafio de acelerar uma migração com uma equipe cujas habilidades giravam em torno do SQL. Todas as nossas transformações anteriores em soluções IBM dependiam de codificação SQL. Em busca de uma solução moderna que nos permitisse aproveitar essas habilidades, decidimos pelo dbt Cloud.
Logo desde nosso teste inicial do dbt Cloud, sabíamos que tínhamos feito a escolha certa. Ele suporta uma ampla gama de ambientes de desenvolvimento e fornece uma interface de usuário baseada em navegador, o que minimiza a curva de aprendizado para nossa equipe. Por exemplo, realizamos uma transformação muito familiar baseada em Dimensões Lentamente Mutáveis e reduzimos consideravelmente nosso tempo de desenvolvimento.
Cada execução de processamento em lote na Home Trust agora depende da Plataforma de Inteligência de Dados Databricks e de nossa arquitetura lakehouse. A casa do lago não apenas garante que podemos acessar dados para relatórios e análises - tão importantes quanto essas atividades são. Ela processa os dados que usamos para:
Em suma, se nosso processamento em lote fosse atrasar, nossa linha de fundo seria afetada. Com o Databricks e o dbt, nosso lote noturno agora termina por volta das 4:00 da manhã, nos dando tempo suficiente para depuração antes de alimentarmos nossos dados em pelo menos 12 sistemas externos. Finalmente temos toda a potência de computação de que precisamos. Não precisamos mais nos apressar para cumprir nossos prazos. Até agora, os custos têm sido justos e previsíveis.
Aqui está como funciona de ponta a ponta:
Nada disso seria possível sem uma intensa colaboração entre nossas equipes de análise e engenharia - o que significa dizer que nada disso seria possível sem o dbt Cloud. Esta plataforma une ambas as equipes em um ambiente onde elas podem realizar seu melhor trabalho. Continuamos adicionando usuários do dbt para que mais de nossos analistas possam construir modelos de dados adequados sem a ajuda de nossos engenheiros. Enquanto isso, nossos usuários do Power BI poderão aproveitar esses modelos de dados para criar relatórios melhores. Os resultados serão maior eficiência e dados mais confiáveis para todos.
Dentro da Plataforma de Inteligência de Dados Databricks, dependendo do histórico e do nível de conforto da equipe, alguns usuários acessam o código através de Notebooks enquanto outros usam o Editor SQL.
De longe, a ferramenta mais útil para nós é o Databricks SQL - um armazém de dados inteligente. Antes de podermos alimentar nossos painéis para análises, temos que usar comandos SQL complicados para agregar nossos dados. Graças ao Databricks SQL, muitas ferramentas de análise diferentes, como o Power BI, podem acessar nossos dados porque estão todos em um só lugar.
Nossas equipes continuam a se surpreender com o desempenho dentro do Databricks SQL. Alguns de nossos analistas costumavam agregar dados no Azure Synapse Analytics. Quando começaram a rodar no Databricks SQL, tiveram que verificar novamente os resultados porque não podiam acreditar que um trabalho inteiro foi executado tão rapidamente. Essa velocidade permite que eles adicionem mais detalhes aos relatórios e processem mais dados. Em vez de sentar e esperar que os trabalhos terminem pendentes, eles estão respondendo mais perguntas a partir de nossos dados.
O Catálogo Unity é outra mudança de jogo para nós. Até agora, só implementamos isso para a nossa camada de dados de ouro, mas planejamos estendê-lo para as nossas camadas de prata e bronze eventualmente em toda a nossa organização.
Como todo provedor de serviços financeiros, estamos sempre procurando maneiras de obter mais insights de nossos dados. É por isso que começamos a usar o Databricks AI/BI Genie para interagir com nossos dados através da linguagem natural.
Conectamos o Genie aos nossos dados de empréstimo - nosso conjunto de dados mais importante - após usar o Unity Catalog para mascarar informações pessoalmente identificáveis (PII) e fornecer acesso baseado em funções para a sala Genie. Genie usa IA generativa que entende a semântica única do nosso negócio. A solução continua aprendendo com nosso feedback. Os membros da equipe podem fazer perguntas ao Genie e obter respostas que são informadas por nossos dados proprietários. Genie aprende sobre cada empréstimo que fazemos e pode dizer quantas hipotecas financiamos ontem ou o total de recebíveis pendentes de nosso negócio de cartão de crédito.
Nosso objetivo é usar mais sistemas baseados em NLP como o Genie para eliminar a sobrecarga operacional que vem com a construção e manutenção deles do zero. Esperamos expor o Genie como um chatbot que todos em nossa empresa podem usar para obter respostas rápidas.
Enquanto isso, a Plataforma de Inteligência de Dados Databricks oferece ainda mais capacidades de IA. Databricks Assistant nos permite consultar dados através de Databricks Notebooks e SQL Editor. Podemos descrever uma tarefa em linguagem simples e depois deixar o sistema gerar consultas SQL, explicar segmentos de código e até corrigir erros. Tudo isso nos economiza muitas horas durante a codificação.
Embora ainda estejamos no nosso primeiro ano com Databricks e dbt Cloud, já estamos impressionados com o tempo e a economia de custos que essas plataformas geraram:
Com mais de 500 modelos dbt em nossa camada de dados de ouro e cerca de meia dúzia de modelos de ciência de dados no Databricks, a Home Trust está pronta para continuar inovando. Cada uma das melhorias tecnológicas que descrevemos apoia um objetivo inalterado: ajudar nossos clientes a estarem “Prontos para o que vem a seguir.”
Para saber mais, confira este relatório da MIT Technology Review. Apresenta insights de entrevistas aprofundadas com líderes na Apixio, Tibber, Fabuwood, Starship Technologies, StockX, Databricks e dbt Labs.
(This blog post has been translated using AI-powered tools) Original Post