(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
VisitBritain은 영국 관광을 위한 공식 웹사이트로, 방문객들이 여행을 계획하고 역사적이든 현대적이든 상관없이 주요 목적지에 대한 추천을 받을 수 있도록 설계되었습니다. COVID-19 팬데믹 이후 방문객들이 어떻게 그리고 왜 영국을 방문하는지가 변하면서 VisitBritain 팀은 새로운 도전을 맞이하게 되었습니다. 기후 변화(더욱 더워진 여름 기온)와 인구 통계학(증가한 수명)과 같은 다른 거시 트렌드도 여행 예측에 영향을 미치고 있었습니다. VisitBritain은 여행객들의 변화하는 요구를 충족시키기 위해 접근 방식을 최신화하고 적응해야 했습니다. Redshift(액센츄어 회사)와 함께 일하면서 답이 명확해졌습니다: 데이터와 AI 도구를 구현하면 그들이 빠르고 효과적으로 대응할 수 있게 됩니다.
여행자 설문조사의 기본 연구는 이동성 데이터(발자국), 지출 데이터(신용 카드 회사), 호텔 및 항공편 정보를 넘어서 여행자의 감정을 이해하는 데 도움이 됩니다. 이 정보들은 사람들이 왜 여행하는지 이해하기 위해 추론적인 점프가 필요합니다. 전통적인 제3자 기관의 설 문조사는 종종 미리 코딩된 다중 선택 응답에 초점을 맞추어 개방형 답변 대신 가치 있는 통찰력을 놓치게 됩니다. 그러나, 개방형 자유 텍스트 데이터는 새로운 분석 도전을 제시합니다.
VisitBritain에서는 우리의 서비스를 이용하는 관광객 수를 늘리고자 했습니다. 우리는 광고 캠페인에 의존하여 방문객들을 참여시키고 영감을 주고 있습니다. 캠페인의 영향을 평가하기 위해, 우리는 관광객들로부터 대량의 자유 형식 응답을 생성하는 시장 조사를 실시합니다. 역사적으로, 이러한 응답에서 통찰력을 추출하는 것은 매우 수동적이고 긴 과정이었으며, 종종 통찰력이 현재의 캠페인에 어떤 영향을 미치는지 너무 늦게 도착합니다. 또한 이는 일관되고 공정한 과정이 아닙니다. 여러 언어로 된 응답은 번역 과정으로 인해 복잡성을 더합니다. 최종 결과는 우리의 설문조사에 대한 응답자들의 세밀한 관점과 감정을 이해하는 데 계속적인 어려움이 있습니다.
우리는 이 분석 과정을 간소화하고 관광객의 감정에 대한 이해를 향상시키는 솔루션이 필요했습니다. 이를 통해 캠페인 관련 의사결정을 강화하고 정보가 없는 응답을 제거할 수 있었습니다.
"우리는 GenAI를 활용하여 감성 데이터를 재구성하고, 쿼리에 쉽게 접근할 수 있도록 하고, 그렇지 않으면 알 수 없는 것들을 찾을 수 있도록 하고자 했습니다. 우리는 기본 연구를 위한 즉각적인 데이터 온도계를 만들었습니다. 데이터 품질을 분석하는 데 며칠이나 몇 주를 투자하는 대신, 우리는 몇 초 내에 데이터 품질 점수를 얻을 수 있습니다.”— Satpal Chana, 데이터 및 분석 및 통찰력 부국장, VisitBritain
이 도전을 해결하기 위해, 우리는 "Viewpoint," 우리의 맞춤형 기업 데이터 지능 플랫폼과 Databricks Mosaic AI를 활용했습니다. 이는 자연어 처리(NLP) 도구 대신 OpenAI GPT-4와 같은 여러 대형 언어 모델(LLMs)을 사용했습니다. 우리가 이를 위해 주로 세 가지 이유가 있었습니다:
다음으로, 필요한 경우 데이터를 번역하고 저품질의 응답을 필터링하여 데이터를 준비했습니다. 일반적인 1900명의 방문객 설문조사에서 우리는 7개의 자유형 질문을 던지고, 27K의 자유형 답변을 받았으며, "나쁨" 또는 "무용"으로 표시된 응답을 필터링하고 "우수" 또는 "모호"로 표시된 응답을 유지했습니다. 예를 들어, 독일어로 받은 "Mir fallt nichs ein"이라는 응답은 먼저 "I can’t think of anything"으로 번역되고, 그 다음으로 무용으로 평가되었습니다.
우리가 유지한 48%의 응답에 대해, 우리는 그 후 LLM을 사용하여 감정, 감정, 그리고 언급된 주제를 검토하였습니다. 모델은 감정을 긍정적이거나 부정적으로 평가하고, 응답의 감 정적 내용을 분류한 다음, 주제를 세 가지 사전 정의된 카테고리 중 하나로 분류하였습니다. 마지막으로, LLM은 응답 내에서 주제의 유병률을 평가하였습니다. 그런 다음 점수를 Databricks Medallion 아키텍처 내의 골드 레벨 테이블에 입력했습니다. 우리는 가장 유용한 데이터 중 일부가 비판적인 응답에서 나왔다는 것을 발견했습니다. 예를 들어, 활동의 높은 비용을 언급한 응답은 우리가 향후 광고에서 가치에 대한 메시지를 더 많이 포함해야 함을 나타냈습니다. 우리는 이러한 작업에 할당된 다른 LLM을 사용하여 관련성 점수와 감정 극성을 도출하기 위해 few-shot prompting을 사용했습니다. 마지막으로, 우리는 LLM에게 응답의 주제 수준과 캠페인 수준 요약을 생성하도록 요청했습니다.
우리의 AI 에이전트 시스템의 결과를 평가하기 위해, 우리는 주로 세 가지 옵션이 있었습니다:
관련성 점수 매기기와 요약 외에도, 우리는 주로 LLM을 평가 지표의 판사로 사용하였습니다. 우리는 개발하고 다양한 기능을 테스트하는 동안 우리가 참조할 수 있는 실제 데이터로 사용할 수 있는 훈련 데이터셋을 가지고 있었습니다. 초기 결과에 만족하면, 우리는 그것들을 테스트 데이터셋에 있는 등록된 모델과 비교하여 우리의 실제 데이터에 과적합되지 않게 하였습니다. 어느 시점에서, 우리는 응답의 품질이 정체되는 상황에 직면했습니다. 그런 다음 우리는 인간이 참여하는 검토에 의존했던 우리의 기준 진실 데이터셋을 다시 검토하였고, 일부 불일치를 발견했습니다. 그래서 우리는 우리의 LLMs로부터 얻은 통찰력에 기반하여 응답을 검토하는 방법에 대한 일부 수정을 다시 진행하였습니다.
우리는 약 두 년 전에 데이터 변환 여정을 시작했고, 우리의 데이터가 어디에 있어야 하는지, 그리고 우리가 어떻게 그것을 사용하고 싶은지에 대한 강력한 비전이 있었습니다. 우리는 우리의 필요를 가장 잘 지원할 수 있는 데이터 아키텍처를 여러 가지로 평가했습니다. 결국, 우리는 그들의 미래 로드맵의 강점 때문에 Databricks를 선택했습니다. 우리가 필요로 할 수 있는 모든 관련 기능들이 미래에 Databricks에서 사용 가능할 것이라는 확신을 가지고 있었습니다. 이 신뢰는 잘 설치되었으며, 우리는 빠르게 우리의 GenAI 기반 데이터 온도계를 배포할 수 있었습니다. 또한, Databricks의 모듈식, 오픈 소스 접근 방식을 감사했습니다. 이는 우리의 개발 및 평가 과정을 훨씬 쉽게 만들었습니다.
현재의 아키텍처를 살펴보면, 우리는 데이터를 저장하고 Unity Catalog를 사용하여 권한 기반 접근을 가능하게 하므로 사용자가 개발 환경에서 생산 데이터를 쿼리할 수 있습니다. Databricks에 통합된 MLflow는 우리가 LLM 결과를 쉽게 비교하고 LLM을 판사로 사용하여 대규모 데이터를 평가하는 저코드 방식을 사용할 수 있게 합니다.
“Databricks 데이터 지능 플랫폼은 우리가 다른 모델을 쉽게 비교하고, 우리가 그들로부터 얻는 출력의 종류를 쉽게 비교할 수 있게 해주었습니다.”— Satpal Chana
“이 프로젝트에서 가장 좋았던 부분은 우리가 그렇지 않았다면 절대 찾지 못했을 곳에서 통찰력을 얻는 것이었습니다. 이 데이터 자산에 대해 광범위한 지식을 가진 동료들조차도, 단 한 번의 시도 후에 예상하지 못한 것들을 발견하고 있습니다.”— Satpal Chana
이 프로젝트로부터 예상치 못한 가치를 얻었습니다. 예를 들어, 다른 팀들이 이 개념 증명을 활용하여 다른 설문조사에 대한 응답을 평가할 수 있습니다. 또 다른 이점은 우리의 설문조사 과정을 개선할 수 있는 능력이었습니다. 이제, 사람들이 드롭다운 목록 외부에서 응답을 제출하면, 우리는 그들의 자유 텍스트 응답에서 정보를 얻을 수 있어, 앞으로 더 관련성 있는 질문을 설정하는 데 도움이 됩니다. 앞으로 보면, Databricks가 혁신의 최전선에 있다는 사실이 중요합니다. 예를 들어, 우리는 쉽게 모델 엔드포인트 사이를 전환할 수 있습니다. 이를 통해 우리는 최신이며 가장 훌륭한 GenAI 기술에 대해 반복할 수 있게 되어, 영국의 관광 산업의 필요를 지원하는 데 도움이 됩니다—지금과 미래에.