고객 데이터 트랜잭션 파이프라인 관리 최적화
다양한 파이프라인 최적화 전략으로 시간적 및 금전적 데이터 관리 비용 절감
파이프라인 최적화 전략으로 기존 대비 파이프라인 관리 비용 절감
유니티 카탈로그 활용으로 기존 대비 클러스터 추가 유지 비용 절감
비용 최적화로 기존 대비 클러스터 실행 비용 절감
비즈니스를 시작하고 성장시키는 과정에서 “왜 돈이 모자랄까?”, “우리 가게 단골은 몇 명일까?”와 같은 크고 작은 질문들을 매일 마주하게 됩니다. 한국 신용 데이터 (Korea Credit Data)는 다양한 비즈니스 데이터를 연결하여 사업자가 쉽게 필요한 정보를 얻고 합리적인 비즈니스 결정을 내릴 수 있도록 지원하고 있습니다. 현재 약 140만 명의 사업자가 사용하고 있는 캐시노트 앱에서는 여러 카드사의 매출 현황을 자세하게 파악할 수 있으며, 가계와 개인의 신용 점수를 관리하고 금융적인 혜택을 얻을 수 있는 서비스를 지원하는 등 다양한 경영 서비스를 제공하고 있습니다. 이 외에도 여러 공동사와 협력하여 사업자의 신용평가, 결제, 마케팅, 컨설팅 그리고 포스 영역까지 서비스 영역을 확장하였습니다. KCD가 제공하는 종합 경영 생태계에서는 데이터가 가장 중요한 역할을 맡고 있습니다. 기존에 사용하였던 AWS 플랫폼에서는 비용 추적, 프레임워크 학습 및 데이터 계보 추적에 대한 어려움이 있었기에, 더욱 효율적인 데이터 관리를 위해 데이터브릭스 인텔리전스 플랫폼을 도입하였습니다. KCD는 REST API 등 데이터브릭스 플랫폼에 내재화되어 있는 다양한 기능을 사용하여 데이터 파이프라인을 최적화하고 시간적 및 금전적 작업 비용을 크게 절감할 수 있었습니다.
기존 AWS 플랫폼상의 비용 추적, 프레임워크 학습 및 데이터 계보 추적에 대한 어려움
KCD는 사업장의 승인, 매입, 입금, 매출 등 사업자가 직면하는 다양한 문제 해결을 돕는 데이터 기반 캐시노트 앱을 제공하고 있습니다. 캐시노트의 장부 기능을 통해 8개의 카드사 매출을 카드, 현금, 세금 계산서 등으로 세부 구분하여 빠르고 자세하게 파악할 수 있으며, 금융 기능을 통해 금융 상품을 추천하거나 가계와 개인의 신용 점수를 관리하고, 소상공인을 대상으로 하는 정부 지원금 소식을 빠르게 전달하여 사업자가 더 많은 금융적인 혜택을 받을 수 있도록 지원하고 있습니다. 또한, 캐시노트 마켓에서는 쌓인 데이터를 바탕으로 식품을 대용량으로 구매할 수 있고, 캐시노트 커뮤니티에서는 사업 과정에서의 노하우나 고민을 다른 사업자들과 공유할 수 있습니다.
이처럼 다양한 경영 지원 서비스를 제공하기 위해서는 대용량의 사업 데이터를 수집하고 정제해야 하며, 얻은 데이터 인사이트를 서비스에 효율적으로 적용해야 했습니다. 기존의 AWS플랫폼에서는 수집하고 정제된 데이터를 RDS (Relational Database Service)에 업데이트한 후, 또 다른 RDS에 트랜잭션 데이터를 업데이트하였습니다. 약 300억 건의 데이터 소스를 조인하여 집계 데이터를 만드는 쿼리는 복잡하였으며, 각 사업자에 대한 데이터 수집이 발생할 때마다 복잡한 트랜잭션 집계 쿼리를 지속적으로 수행해야 했기 때문에 큰 금전적 및 시간적 비용이 소비되었습니다.
그 외에도 기존 플랫폼에서는 비용 추적, 프레임 학습 문제 및 데이터 계보 추적 문제가 존재하였습니다. 많은 배치 잡을 단 2개의 EMR (Elastic MapReduce)에서 실행하였기에 EMR단위의 비용 트레킹은 비교적 쉬웠지만, 각 배치 잡이 사용한 자원을 구체적으로 확인하는 것은 어려웠습니다. 또한, 신규 입사자가 기존 프레임워크를 학습하는 데 어려움이 있었습니다. 기존에는 데이터 파이프라인 개발 과정에서 데이터 엔지니어링에서 주로 사용하는 언어가 아닌 자체 프레임워크를 사용했기 때문에, 신규 입사자는 이 프레임워크에 대해서 먼저 학습하고 이해를 한 후에야 데이터 파이프라인을 대한 구축하고 장애에 대응할 수 있었습니다.
더불어, 기존 시스템에서는 데이터 계보 추적이 어려워 특정 데이터 포인트에서 장애나 변화가 발생했을 때 현업 관련 부서에 이를 전파하는 과정이 어려웠습니다. 그리하여, AWS플랫폼에서의 배치 잡의 비용 추적, 프레임워크 학습, 및 데이터 계보 추적에 대한 어려움을 해소하고자 KCD는 데이터브릭스 도입을 결정하였습니다.
데이터브릭스로 고객 데이터 트랜잭션 파이프라인 관리 효율성 증가
KCD는 캐시노트 서비스 제공에 필수적인 고객 데이터 관리 효율성을 높이기 위해 데이터브릭스 인텔리전스 플랫폼을 도입하였습니다. KCD는 데이터브릭스 기반 고객 데이터 트랜잭션 파이프라인을 설립, 프로세싱 및 모니터링하여, 캐시노트의 금융 기능 서비스를 통해 사용자가 매출 집계, 카드 매출, 배달 앱 데이터 등 다양한 데이터를 손 쉽게 접할 수 있도록 대시보드 형태로 제공하고 있습니다. 대용량 고객 데이터를 기존 데이터베이스에서 델타 레이크로 이동시켜 임직원이 데이터브릭스 솔루션을 활용할 수 있도록 장려하였고, 델타 테이블에서 빠르고 효율적인 분석으로 데이터 레이턴시도 크게 줄일 수 있었습니다. 이러한 변화로 인해 KCD는 고객에게 더 신속하고 정확한 금융 서비스를 제공할 수 있게 되었습니다.
KCD는 유니티 카탈로그를 활용하여 모든 배치 잡과 클러스터에 오너, 팀, 카테고리 등 태그를 부여하여 각 조직의 프로젝트별 자원 소비량을 확인할 수 있게 되었습니다. 또한, 태그가 누락된 경우 언리스트 상태의 클러스터들의 추가 유지 비용을 제한하기 위해 데일리 및 위클리 노티파이어를 사용하였습니다. 이를 통해, 자원을 과도하게 사용하는 특정 프로젝트를 빠른 시간 안에 발견할 수 있어 비용 소비를 크게 줄일 수 있었으며, 특정 수준 이상의 자원을 사용하는 배치 잡을 공지하고 단속하여 운영 비용을 줄일 수 있었습니다.
또한, 데이터브릭스를 사용함으로써 기존 프레임워크를 미리 학습해야 하는 필요성이 없어져 신규 입사가 보다 빠르게 현업에 투입할 수 있게 되었습니다. 데이터브릭스는 주요 데이터 엔지니어링 언어인 SQL, 스칼라, 파이선을 모두 지원하였기에 데이터 접근성과 활용성을 향상시켰습니다. 더불어, 유니티 카탈로그를 활용하여 노트북, 테이블 및 워크플로우를 만들면 추가 작업 없이 자동으로 데이터 계보가 생성되었기에 기존의 데이터 계보 추적 문제도 해결할 수 있었습니다. 덕분에 특정 테이블에 변화나 장애가 발생하였을 때 빠르게 영향 범위를 파악할 수 있었고, 문제가 발생한 테이블에 연관이 있는 사용자들에게만 맨션을 걸어 공지를 할 수 있게 되어 업무 및 소통 효율성을 크게 높일 수 있었습니다.
더욱 나아가, KCD는 데이터브릭스에 내재화되어 있는 기능을 통해 트랜잭션 파이프라인을 최적화할 수 있었습니다. 데이터 인제스천 영역에서 수집된 데이터를 오토로더를 이용해 델타테이블로 가져왔습니다. 수집된 데이터가 대용량인 점을 고려해 파일 생성 이벤트를 SQS로 발송하여 읽기 대상을 업데이트하는 파일 노티피케이션 방식을 선택함으로써 오버헤드를 제거할 수 있었습니다. 또한, 트랜잭션 파이프라인은 20분 단위로 실행이 되지만, 매시간 일정한 속도로 데이터 수집이 발생하지 않기에, 데이터 파이프라인의 비용에 지대한 영향을 끼치는 잡 클러스터의 스펙을 업데이트를 해서 비용을 최적화할 수 있었습니다. 박상영 데이터 엔지니어는 “REST API, 사용량 알림, 클러스터나 Instant Pool의 스펙을 조정하는 기능 등 데이터브릭스 플랫폼에 내재화되어 있는 다양한 기능을 활용하여 자유도 높은 최적화된 파이프라인을 효율적인 비용으로 운영할 수 있게 되었습니다.”라고 설명하였습니다.
데이터브릭스의 다양한 최적화 전략을 통해서 기존 대비 90% 비용 절감
KCD는 데이터브릭스의 다양한 최적화 전략을 통해 파이프라인 관리 비용을 대폭 절감할 수 있었습니다. 기존에는 하루에 70만 건의 트랜잭션 파이프라인 관련 쿼리가 IO비용이 높은 RDS에서 수행되었기 때문에 한 달에 수천만 원 의 IO 비용이 발생했습니다. 데이터브릭스 도입 후에는 소스 데이터를 델타 테이블에 오토로더를 활용하여 데이터를 적재하고 집계된 데이터를 업데이트함으로써, 완성된 테이블을 RDS에 싱크할 때만 연산이 발생하기에 기존보다 IO연산을 크게 줄일 수 있었습니다.
또한, 기존에는 각 사업장에 대한 수집이 완료될 때마다 쿼리가 수행되는 구조였지만, 현재는 20분 단위로 수집된 데이터에 대한 배치 처리를 할 수 있고, REST API를 통해 잡 클러스터의 스펙을 업데이트하여 비용 최적화를 이룰 수 있었습니다. 풀 스펙의 클러스터를 24시간 동안 진행하는 것에 비해 비용을 50%나 절감할 수 있었습니다. 그 외에도, 데이터브릭스 플랫폼에서 태그를 사용하여 비용 트레킹이 가능해져 비용 절감 효과를 얻었습니다. 2023년 11월부터 2024년 1월까지 비용 집중 단속기간을 거처, 기존 대비 약 70% 정도의 비용 절감을 할 수 있었습니다. 결과적으로, 기존 RDS 기반에서 실행되는 데이터 파이프라인에 비해 데이터브릭스의 다양한 최적화 전략을 활용하여 약 90%의 비용을 절감할 수 있었습니다.
더불어, 데이터브릭스 플랫폼을 활용하여 적은 인원으로도 시간적 자원을 최적화할 수 있었습니다. 데이터 인제스천 영역에서 오토로더를 사용하여 File-notification 모드로 최적화하였을 때, 네트워크 메트릭이 안정화되고 기존에 있었던 15분의 데이터 처리 지연이 없어졌습니다. 또한, 데이터브릭스에서 제공하는 인스턴트 풀 기능을 이용해 기존의 잡 클러스터가 구동되는 오버헤드를 5분에서 2분으로 줄일 수 있었습니다.
KCD는 기존 플랫폼의 비용 추적, 프레임워크 학습 및 데이터 계보 추적에 대한 어려움을 데이터브릭스 인텔리전스 플랫폼 통해 해소할 수 있었고, 다양한 최적화 전략을 통해 시간적 및 금전적 비용을 크게 절감할 수 있었습니다. 자유도 높은 파이프라인의 업무 효율성을 강조하며 KCD의 박상영 데이터 엔지니어는 “앞으로 나올 테이터브릭스 인텔리전스 플랫폼에서 직접 Compute을 하는 서버리스 Compute이나 라LLM에 대한 지원을 매우 기대하고 있다”며 KCD와 데이터브릭스의 지속적인 협력을 확신하였습니다.