주요 컨텐츠로 이동

성향 평가(Propensity Scoring)를 통한 개인화 시작하기

Tian Tan
Sam Steiny
Bryan Smith

January 5, 2024 in 산업

이 포스트 공유하기

(번역:HaUn Kim  -  Original Blog Link)

소비자는 점점 더 개인화된 방식으로 참여를 기대합니다. 최근 구매한 상품보다 나은 제품을 홍보하는 이메일, 자주 검색하는 카테고리의 제품 세일을 알리는 온라인 배너, 관심사에 맞는 콘텐츠 등을 통해 소비자는 더 많은 선택권을 가지며, 자신의 개인적인 필요와 선호를 인식하는 매장에서 소비하는 것을 선호합니다.

맥킨지의 최근 설문조사에 따르면 소비자의 약 4분의 3이 쇼핑 경험에 개인화된 상호 작용을 기대하며, 이를 제대로 구현할 수 있는 기업은 개인화를 통해 약 40% 더 많은 수익을 창출합니다. 즉, 개인화는 최고의 리테일 기업을 차별화할 수 있는 핵심 요소인 것이죠. 

그럼에도 많은 리테일 기업들은 개인화에 어려움을 겪고 있습니다. Forrester의 최근 설문조사에 따르면 미국 소비자의 30%와 영국 소비자의 26%만이 리테일 기업이 관련성 높은 경험을 제공하는 데 성공했다고 생각하는 것으로 나타났습니다. 3radical이 별도로 실시한 설문조사에서는 응답자의 18%만이 맞춤형 추천을 받았다고 강하게 느끼는 반면, 52%는 관련 없는 커뮤니케이션과 제안을 받아 불만을 느낀 것으로 나타났습니다. 소비자가 브랜드와 매장을 자유롭게 선택할 수 있는 권한이 점점 커짐에 따라 개인화를 제대로 구현하는 것이 많은 비즈니스에게 우선 순위가 되었습니다.

개인화는 여정입니다

개인화를 처음 접하는 조직에게서 일대일 경험을 제공하는 것은 어려워 보일 수 있습니다. 사일로화된 프로세스, 부실한 데이터 관리, 그리고 데이터 프라이버시에 대한 우려를 극복하고 이러한 개인화 접근 방식에 필요한 데이터를 수집하기 위해서는 어떻게 해야 할까요? 또한 한정된 마케팅 리소스로 진정한 맞춤형 콘텐츠와 메시지를 제작하기 위해서는 어떻게 해야 할까요? 그리고 우리가 만드는 콘텐츠가 진화하는 니즈와 선호도를 가진 개인에게 효과적으로 타겟팅되도록 하려면 어떻게 해야 할까요?

개인화에 관한 많은 자료에서는 혁신적인 최첨단 접근 방식을 강조하지만 (물론 효과가 입증된 건 아닙니다), 개인화는 "여정"이라는 점을 잊어선 안됩니다. 초기 단계에서는 개인정보 보호와 고객 신뢰를 유지하기 쉬운 자사 데이터를 활용하는 데 주력해야 하고, 표준적인 예측 기법을 적용하여 검증된 기능을 발전시키는 것이 중요합니다. 이를 통해 가치가 입증되고 조직이 이러한 새로운 기법에 익숙해지며 업무에 통합할 수 있는 다양한 방법을 개발하게 되면 보다 정교한 접근 방식을 채택할 수 있을 것입니다.

성향 평가 (Propensity Scoring)가 개인화를 위한 첫 번째 단계인 경우가 많습니다

개인화 여정의 첫 번째 단계 중 하나는 고객 개개인의 선호도를 파악하기 위해 판매 데이터를 조사하는 것입니다. 이를 위해 기업은 성향 평가라고 하는 프로세스를 통해 고객이 특정 오퍼나 제품 하위 집합과 관련된 콘텐츠를 얼마나 받아들일 수 있는지를 추정할 수 있습니다. 마케터는 이러한 점수를 사용하여 특정 고객에게 어떤 메시지를 전달해야 할지 결정할 수 있습니다. 또한 이러한 점수를 활용하여 특정 형태의 참여를 수용하는 고객 세그먼트를 식별할 수도 있습니다.

성향 평가 작업의 대부분은 과거 상호작용에서 수치화된 속성(특징)을 계산하는 것으로 시작합니다. 이러한 특징에는 고객의 구매 빈도, 특정 제품 카테고리와 관련된 지출 비율, 마지막 구매 이후 경과한 일수, 기록 데이터에서 파생된 기타 여러 지표 등이 포함될 수 있습니다. 그런 다음 이러한 특징이 계산된 기간 다음의 기록 기간에서 특정 카테고리 내 제품 구매나 쿠폰 사용과 같은 관심 행동이 있는지 조사합니다. 해당 행동이 관찰되면 해당 특징과 1이라는 레이블이 부여되며, 그렇지 않은 경우에는 0의 레이블이 부여됩니다.

데이터 사이언티스트는 이러한 특징을 레이블의 예측 변수로 사용하여 관심 있는 행동이 발생할 확률을 추정하는 모델을 훈련할 수 있습니다. 마케터는 이 훈련된 모델을 가장 최근 기간에 계산된 특징에 적용하여 고객이 가까운 미래에 특정 행동을 이행할 확률을 추정할 수 있습니다.

각각 다른 행동을 예측하는 수많은 모델이 동일한 기능 세트에 적용되므로 수많은 오퍼, 프로모션, 메시지, 그리고 기타 콘텐츠를 자유롭게 활용할 수 있습니다. 이러한 모델에 따라 개인별 프로필이 구성되며, 해당 프로필은 관심 있는 각 행동에 대한 점수로 이루어져 다양한 캠페인의 오케스트레이션에서 마케팅에 활용될 수 있도록 다운스트림 시스템에 게시됩니다.

데이터브릭스는 성향 평가를 위한 중요한 기능을 제공합니다.

성향 평가는 언뜻 보기에는 간단해 보일 수 있지만, 실제로는 어려운 과제입니다. 성향 평가를 구현하는 리테일 기업들과 대화를 나누다 보면 종종 다음과 같은 세 가지 질문에 직면하게 됩니다:

  1. 성향 모델을 학습시키기 위해 사용하는 100개 또는 때로는 1,000개의 기능을 어떻게 유지하나요?
  2. 마케팅 팀이 추진하고자 하는 새로운 캠페인에 맞춰 모델을 빠르게 훈련시키려면 어떻게 해야 할까요?
  3. 고객 패턴의 변화에 따라 재학습된 모델을 신속하게 다시 배포하려면 어떻게 해야 할까요?

데이터브릭스는 기업의 엔드투엔드 요구사항을 고려하여 구축된 분석 플랫폼을 제공하여 이러한 문제들을 해결하는 데 중점을 두고 있습니다. Feature Store, AutoML, MLFlow와 같은 기능을 플랫폼에 통합하여 강력한 성향 평가 프로세스의 일부로 활용할 수 있습니다.

피처 스토어 (Feature Store)

데이터브릭스의 피처 스토어는 중앙 집중식 저장소로, 다양한 모델 트레이닝 연습에서 피처의 지속성, 검색 및 공유를 가능하게 합니다. 피처가 캡처되면 리니지 및 기타 메타데이터도 함께 캡처되어, 다른 데이터 사이언티스트들이 다른 사람이 만든 피처를 재사용할 때 안심하고 쉽게 사용할 수 있습니다. 표준 보안 모델은 허용된 사용자와 프로세스만이 이러한 기능을 사용할 수 있도록 보장하므로, 조직 정책에 따라 데이터 액세스와 데이터 사이언스 프로세스를 관리할 수 있습니다.

AutoML

데이터브릭스의 AutoML은 업계에서 모범 사례로 알려진 기법을 활용하여 빠르게 모델을 생성할 수 있게 해줍니다. AutoML은 유리 상자 솔루션으로, 먼저 시나리오에 맞춰 다양한 모델 변형을 나타내는 노트북 모음을 생성합니다. 반복적으로 여러 모델을 학습시켜 데이터 세트에 가장 적합한 모델을 결정하는 동안, 사용자는 각 모델과 관련된 노트북에 액세스할 수 있습니다. 이러한 노트북은 많은 데이터 사이언스 팀에서 모델 변형을 추가로 탐색하기 위한 편집 가능한 출발점으로 활용되며, 궁극적으로 목표를 달성할 수 있는 훈련된 모델에 도달할 수 있도록 도움을 줍니다.

MLFlow

MLFlow는 데이터브릭스 플랫폼 내에서 관리되는 오픈 소스 머신 러닝 모델 리포지토리입니다. 이 리포지토리를 통해 데이터 사이언스 팀은 자동화된 머신 러닝과 사용자 지정 학습 주기에서 생성된 다양한 모델 반복을 추적하고 분석할 수 있습니다. 워크플로 관리 기능을 통해 조직은 학습된 모델을 개발 단계에서 프로덕션 단계로 신속하게 이동시켜, 학습된 모델이 운영에 빠르게 영향을 미칠 수 있도록 할 수 있습니다.

데이터브릭스 피처 스토어와 함께 사용할 경우, MLFlow로 유지된 모델은 훈련 중에 사용된 피처에 대한 지식을 유지합니다. 이는 추론을 위해 모델을 검색할 때 동일한 정보를 활용하여 모델이 Feature Store에서 관련 기능을 검색할 수 있게 해줍니다. 이를 통해 평가 워크플로우가 크게 간소화되고 신속한 배포가 가능해집니다.

성향 평가 워크플로 구축하기

조직에서는 이러한 기능을 조합하여 세 가지 단계로 구성된 워크플로우의 일부로 성향 점수를 구현할 수 있습니다. 첫 번째 단계에서는 데이터 엔지니어와 데이터 사이언티스트가 협력하여 성향 점수화 작업과 관련된 피처를 정의하고 이를 피처 스토어에 유지합니다. 그런 다음, 새로운 데이터가 입력되면 일일 또는 실시간 기능 엔지니어링 프로세스를 통해 최신 기능 값을 계산합니다. 이를 통해 조직은 성향 점수를 구현하고 유지할 수 있습니다.

Figure 1. A three-part propensity scoring workflow

다음으로, 추론 워크플로우의 일부로 고객 식별자가 이전에 학습된 모델에 제공되어 최신 기능을 기반으로 성향 점수를 생성합니다. 데이터 엔지니어는 피처 스토어에 저장된 정보를 활용하여 이러한 기능을 검색하고 원하는 점수를 상대적으로 쉽게 생성할 수 있습니다. 생성된 점수는 데이터브릭스 플랫폼 내에서 분석을 위해 유지될 수도 있지만, 일반적으로는 다운스트림 마케팅 시스템에 전달됩니다.

마지막으로, 모델 학습 워크플로우에서 데이터 사이언티스트는 고객 행동의 변화를 포착하기 위해 주기적으로 성향 점수 모델을 재학습합니다. MLFlow를 통해 모델을 관리하고 변경 관리 프로세스를 적용하여 조직 기준을 충족하는 모델을 프로덕션 상태로 업데이트합니다. 추론 워크플로우에서는 각 모델의 최신 프로덕션 버전을 검색하여 고객 점수를 생성합니다.

이러한 기능이 함께 작동하는 방식을 보여주기 위해 공개적으로 사용 가능한 데이터 세트를 기반으로 성향 점수화를 위한 엔드투엔드 워크플로우를 구축했습니다. 이 워크플로우에서는 앞서 설명한 세 가지 요소를 시연하며, 데이터브릭스의 주요 기능을 활용하여 효과적인 성향 점수화 파이프라인을 구축하는 방법을 보여줍니다.

자료는 여기서 다운로드하여 출발점으로 활용하고, 데이터브릭스 플랫폼을 사용하여 개인화를 위한 자체 기반을 구축하는 방법을 알아보세요. 

Databricks 무료로 시작하기

관련 포스트

모든 산업 포스트 보기