주요 컨텐츠로 이동

Home Trust가 Databricks 데이터 인텔리전스 플랫폼과 dbt Cloud로 배치 처리를 현대화하는 방법

How Home Trust Modernized Batch Processing with Databricks Data Intelligence Platform and dbt Cloud

Published: March 17, 2025

고객1분 이내 소요

Summary

  • Home Trust는 기존 ETL 솔루션의 한계를 극복하기 위해 Databricks Data Intelligence Platform과 dbt Cloud로 전환했습니다
  • dbt Cloud의 도입은 분석 팀과 엔지니어링 팀 간의 협업을 개선했습니다
  • Home Trust는 Databricks AI/BI Genie를 활용하여 자연어 쿼리와 LLM을 통해 데이터로부터 통찰력을 얻고, 신용평가 및 후속 이메일 생성과 같은 작업을 자동화함으로써 고객 경험을 향상시킵니다

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

Home Trust에서는 우리가 성공을 관계의 측면에서 측정합니다. 개인이든 기업이든, 우리는 그들이 "다음에 대비할 준비"가 되도록 돕는 데 주력하고 있습니다.

우리 고객의 금융 요구 사항을 한 걸음 앞서 가기 위해서는 기업용 데이터 웨어하우스에서 분석 및 보고를 위한 데이터를 즉시 사용할 수 있어야 합니다. 이를 우리는 Home Analytics & Reporting Platform (HARP)라고 부릅니다. 우리의 데이터 팀은 이제 Databricks Data Intelligence Platformdbt Cloud 를 사용하여 효율적인 데이터 파이프라인을 구축하여 기업 외부의 중요한 파트너 시스템과 비즈니스 작업 부하를 공유하고 협업할 수 있습니다. 이 블로그에서는 Databricks와 dbt와의 작업 내용을 공유하고, 우리가 고객이 원하는 파트너가 될 수 있도록 돕는 사용 사례를 개요화합니다.

느린 배치 처리의 위험

데이터에 관해서는 HARP가 우리의 주요 작업 도구입니다. 이 없이는 우리 사업을 거의 운영할 수 없습니다. 이 플랫폼은 Power BI, Alteryx 및 SAS와 같은 분석 도구를 포함합니다. 수년 동안, 우리는 HARP 내의 다양한 솔루션을 조정하기 위해 IBM DataStage를 사용했지만, 이 레거시 ETL 솔루션은 결국 자신의 무게에 버티지 못하게 되었습니다. 배치 처리는 밤새 진행되어, 아침 7시까지 이어지며, 우리에게 데이터를 디버그하고 파트너 기관에 전송하기 전에 거의 시간을 남겨두지 않았습니다. 우리는 파트너와의 서비스 수준 계약을 이행하는 데 어려움을 겪었습니다.

Databricks 데이터 인텔리전스 플랫폼 으로 이동하기로 한 결정은 어렵지 않았습니다. 우리는 Databricks 팀과 긴밀하게 협력하여 우리의 솔루션을 구축하기 시작했고 – 그리고 마찬가지로 중요하게, 중단을 최소화할 계획을 세웠습니다. Databricks 팀은 우리가 DLT-META,Databricks Delta Live Tables 와 함께 작동하는 프레임워크를 사용하도록 권장했습니다. DLT-META는 우리의 데이터 플로우 사양으로서, 이미 프로덕션에 있는 청동 및 은색 데이터 파이프라인을 자동화하는 데 사용되었습니다.

SQL을 중심으로 기술 능력을 갖춘 팀과 함께 마이그레이션을 빠르게 진행하는 도전에 직면했습니다. IBM 솔루션에서 이전의 모든 변환은 SQL 코딩에 의존했습니다. 이러한 기술을 활용할 수 있는 현대적인 솔루션을 찾고자, 우리는 dbt Cloud를 선택했습니다.

dbt Cloud의 초기 시험에서부터, 우리는 올바른 선택을 했다는 것을 알았습니다. 다양한 개발 환경을 지원하며 브라우저 기반의 사용자 인터페이스를 제공하여 우리 팀의 학습 곡선을 최소화합니다. 예를 들어, 우리는 매우 익숙한 Slowly Changing Dimensions 기반의 변환을 수행하고 개발 시간을 크게 줄였습니다.

레이크하우스가 어떻게 우리의 핵심 프로세스를 지원하는지

Home Trust에서의 모든 배치 처리는 이제 Databricks Data Intelligence Platform과 우리의 레이크하우스 아키텍처에 의존합니다. 레이크하우스는 보고와 분석을 위한 데이터에 접근할 수 있도록 보장하는 것뿐만 아니라 - 그 활동이 중요하다는 것은 물론입니다. 우리가 사용하는 데이터를 처리합니다:

  • 브로커 커뮤니티에서 대출 갱신 프로세스를 활성화하십시오
  • 미국 재무부와 데이터를 교환합니다.
  • FICO 점수 업데이트
  • 중요한 비즈니스 사기 경고를 보내십시오
  • 우리의 기본 회복 대기열을 실행합니다.

간단히 말해서, 배치 처리가 지연되면 우리의 순이익이 타격을 입게 됩니다. Databricks와 dbt를 사용하면, 우리의 야간 배치는 이제 오전 4시경에 끝나고, 최소한 12개의 외부 시스템에 데이터를 공급하기 전에 충분한 시간을 디버깅에 할애할 수 있습니다. 우리는 드디어 필요한 모든 컴퓨팅 파워를 갖게 되었습니다. 이제 우리는 마감 시간을 맞추기 위해 서두르지 않습니다. 그리고 지금까지 비용은 공정하고 예측 가능했습니다.

이것이 어떻게 끝에서 끝까지 작동하는지에 대해:

  1. Azure Data Factory는 데이터 파일을 Azure Data Lake Storage (ADLS)에 저장합니다. SAP 소스 파일의 경우, SAP Data Services는 파일을 ADLS에 저장합니다.
  2. 그곳에서, DLT-META는 청동과 은 층을 처리합니다.
  3. 그런 다음 dbt Cloud는 다운스트림 분석을 위해 골드 레이어에서 변환을 수행하는 데 사용됩니다.
  4. 그런 다음 데이터는 대출, 보험 수요 예측 및 채무 회수와 같은 활동을 위한 우리의 지정 파이프라인으로 이동합니다.
  5. 우리는 모든 플랫폼 간의 오케스트레이션에 Databricks 워크플로우와 Azure Data Factory를 사용합니다.

이 모든 것은 분석 팀과 엔지니어링 팀 간의 강력한 협업 없이는 불가능하다는 것을 의미합니다 - 즉, dbt Cloud 없이는 불가능하다는 것을 의미합니다. 이 플랫폼은 두 팀을 최상의 작업을 할 수 있는 환경에서 함께 모읍니다. 우리는 엔지니어의 도움 없이 더 많은 분석가들이 적절한 데이터 모델을 구축할 수 있도록 dbt 사용자를 계속 추가하고 있습니다. 한편, 우리의 Power BI 사용자들은 이러한 데이터 모델을 활용하여 더 나은 보고서를 생성할 수 있을 것입니다. 결과는 모든 사람에게 더 큰 효율성과 더 신뢰할 수 있는 데이터가 될 것입니다.

데이터 집계는 거의 의심스럽게 빠르게 이루어집니다

Databricks Data Intelligence Platform 내에서는, 팀의 배경과 편안함 수준에 따라 일부 사용자는 노트북 을 통해 코드에 접근하고, 다른 사용자는 SQL 에디터를 사용합니다.

우리에게 가장 유용한 도구는 Databricks SQL - 지능형 데이터 웨어하우스입니다. 분석을 위한 대시보드를 구동하기 전에, 우리는 복잡한 SQL 명령을 사용하여 데이터를 집계해야 합니다. Databricks SQL 덕분에 Power BI와 같은 다양한 분석 도구들이 우리의 데이터에 접근할 수 있습니다. 왜냐하면 모든 데이터가 한 곳에 모여 있기 때문입니다.

우리 팀은 Databricks SQL 내의 성능에 계속해서 놀라고 있습니다. 우리의 일부 분석가들은 Azure Synapse Analytics에서 데이터를 집계하곤 했습니다. Databricks SQL에서 실행을 시작했을 때, 전체 작업이 너무 빨리 실행되어 결과를 두 번 확인해야 했습니다. 이 속도는 보고서에 더 많은 세부 사항을 추가하고 더 많은 데이터를 처리할 수 있게 합니다. 작업이 끝나기를 기다리는 대신, 그들은 우리의 데이터로부터 더 많은 질문에 답하고 있습니다.

Unity 카탈로그는 또 다른 게임 체인저입니다. 지금까지, 우리는 우리의 금 데이터 계층에 대해서만 이를 구현했지만, 우리는 이를 우리의 은과 동 데이터 계층에 확장할 계획이며, 결국에는 우리의 전체 조직에 걸쳐 확장할 계획입니다.

내장 AI 기능은 빠른 답변을 제공하고 개발을 간소화합니다

모든 금융 서비스 제공자와 마찬가지로, 우리는 항상 우리의 데이터로부터 더 많은 통찰력을 얻는 방법을 찾고 있습니다. 그래서 우리는 Databricks AI/BI Genie 를 사용하여 자연어를 통해 우리의 데이터와 소통하기 시작했습니다.

우리는 Unity Catalog를 사용하여 개인 식별 정보(PII)를 마스킹하고 Genie 방에 역할 기반 접근을 제공한 후에 우리의 대출 데이터 - 우리의 가장 중요한 데이터 세트 - 에 Genie를 연결했습니다. Genie는 우리 비즈니스의 고유한 의미론을 이해하는 생성 AI를 사용합니다. 이 솔루션은 계속해서 우리의 피드백에서 배우고 있습니다. 팀원들은 Genie에게 질문을 하고, 우리의 독점 데이터에 근거한 답변을 받을 수 있습니다. Genie는 우리가 만드는 모든 대출에 대해 배우며, 어제 우리가 얼마나 많은 모기지를 지원했는지 또는 신용 카드 사업에서의 총 미수금을 알려줄 수 있습니다.

우리의 목표는 Genie와 같은 더 많은 NLP 기반 시스템을 사용하여 처음부터 구축하고 유지하는 데 따르는 운영 오버헤드를 제거하는 것입니다. 저희는 Genie를 모든 사업 부문의 모든 사람들이 빠른 답변을 얻을 수 있는 챗봇으로 공개하려고 합니다.

한편, Databricks Data Intelligence Platform은 더 많은 AI 기능을 제공합니다. Databricks Assistant 를 통해 Databricks 노트북과 SQL 에디터를 통해 데이터를 쿼리할 수 있습니다. 우리는 일반적인 언어로 작업을 설명하고, 그런 다음 시스템이 SQL 쿼리를 생성하고, 코드의 세그먼트를 설명하고, 심지어 오류를 수정하도록 할 수 있습니다. 이 모든 것이 코딩하는 동안 우리에게 많은 시간을 절약해줍니다.

낮은 오버헤드는 더 나은 고객 경험을 의미합니다

Databricks와 dbt Cloud를 처음 사용한지 1년이 지났지만, 이 두 플랫폼이 생성한 시간과 비용 절약에 이미 감동했습니다:

  • 소프트웨어 라이선스 비용 감소. Unity Catalog를 사용하면, 우리는 별도의 플랫폼을 사용하는 대신 Databricks를 통해 데이터 거버넌스를 실행하고 있습니다. 우리는 Databricks 노트북을 통해 모든 프로파일링 규칙을 실행함으로써 레거시 ETL 도구의 필요성을 제거했습니다. 결국, 우리는 소프트웨어 라이선스 비용을 70% 줄였습니다.
  • 배치 처리 속도 향상. 우리의 레거시 IBM DataStage 솔루션에 비해, Databricks와 dbt는 우리의 배치를 90% 더 빠르게 처리합니다.
  • 보다 빠른 코딩. Databricks Assistant를 통한 효율성 향상 덕분에, 우리는 코딩 시간을 70% 줄였습니다.
  • 신규 채용자의 온보딩이 더욱 쉬워집니다. IBM DataStage에 10년 경험이 있는 IT 전문가를 찾기가 점점 어려워졌습니다. 오늘날, 우리는 좋은 STEM 프로그램에서 새로 졸업한 사람들을 고용하고 그들을 바로 Databricks와 dbt Cloud에서 일하게 할 수 있습니다. 그들이 Python과 SQL을 공부하고 Anaconda와 Jupyter와 같은 기술을 사용했다면, 그들은 좋은 선택이 될 것입니다.
  • 보험 가입 작업 감소. 이제 우리는 Databricks 내의 AI 기능을 마스터하고 있으며, 판정 작업을 수행하기 위해 대형 언어 모델(LLM)을 훈련시키고 있습니다. 이 프로젝트 하나만으로도 우리의 심사 작업을 80% 줄일 수 있습니다.
  • 수동 작업 감소. Databricks Data Intelligence Platform 내의 LLM 기능을 사용하여, 우리는 중개인에게 후속 이메일을 작성하고 CRM 시스템에 초안으로 넣습니다. 이러한 초안들 각각은 팀원에게 소중한 몇 분을 절약해줍니다. 이것을 연간 수천 건의 거래로 곱하면, 이것은 우리 사업에 대한 주요한 시간 절약을 의미합니다.

데이터의 골드 레이어에 500개 이상의 dbt 모델과 Databricks의 약 반 다섯 개의 데이터 과학 모델이 있으므로, Home Trust는 계속 혁신할 준비가 되어 있습니다. 우리가 설명한 각 기술 개선은 변하지 않는 목표를 지원합니다: 고객들이 "다음에 대비할 준비"가 되도록 돕는 것입니다.

더 자세히 알아보려면, 이 MIT Technology Review report를 확인해보세요. 이는 Apixio, Tibber, Fabuwood, Starship Technologies, StockX, Databricks 및 dbt Labs의 리더들과의 심층 인터뷰에서 얻은 통찰력을 특징으로 합니다.

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?