(번역: Dongwook Kim) Original Blog Post
자세한 내용을 확인하고 노트북을 다운로드하려면 리테일용 LLM 솔루션 액셀러레이터를 확인하세요.
대화형 AI는 최근 몇 달 동안 언론의 많은 관심을 받았지만, 대규모 언어 모델(LLM)의 기능은 대화형 상호 작용을 훨씬 뛰어넘습니다. 질문에 대한 응답, 요약, 분류, 검색과 같이 잘 알려지지 않은 기능에서 많은 조직이 인력을 강화하고 고객 경험을 향상시킬 수 있는 즉각적인 기회를 찾고 있습니다.
이러한 애플리케이션의 잠재력은 엄청납니다. 한 추정에 따르면, 가까운 미래에 LLM( 그리고 기타 생성형 AI 기술)이 오늘날 직원의 시간 중 60~70%를 차지하는 업무를 해결할 수 있을 것으로 예상됩니다. 수많은 연구에 따르면 증강을 통해 배경 조사, 데이터 분석, 문서 작성 등 지식 근로자가 수행하는 다양한 작업을 완료하는 데 걸리는 시간을 절반으로 줄일 수 있다고 합니다. 또 다른 연구에 따르면 이러한 기술을 사용하면 신입 직원이 생산성을 극대화하는 데 걸리는 시간을 획기적으로 단축할 수 있습니다.
그러나 이러한 이점을 완전히 실현하려면 먼저 이러한 모델이 의존하는 비정형 정보 자산의 관리에 대해 재고하고 결과물에 영향을 미치는 편향성과 정확성 문제를 완화할 방법을 찾아야 합니다. 현재 많은 조직이 제한된 범위에서 더 나은 정보 접근 기회를 제공하 고 사람의 감독을 통해 잘못된 결과를 견제할 수 있는 내부 애플리케이션에 집중하고 있는 것도 바로 이 때문입니다. 이러한 애플리케이션은 조직 내에 이미 존재하는 핵심 역량과 연계되어 실질적이고 즉각적인 가치를 제공할 수 있는 잠재력을 지니고 있으며, LLM과 그 지원 기술은 계속 발전하고 성숙해가고 있습니다.
제품 리뷰 요약 기능을 개선할 수 있습니다
LLM 도입에 대한 보다 집중적인 접근 방식의 잠재력을 설명하기 위해 많은 온라인 리테일 조직에서 수행하는 매우 간단하고 일반적인 작업인 제품 리뷰 요약을 예로 들어보겠습니다. 오늘날 대부분의 조직은 적당한 규모의 인력으로 구성된 팀을 고용하여 사용자 피드백을 읽고 분석하여 제품의 성능을 개선하거나 고객 만족과 관련된 문제를 파악하는 데 도움이 될 수 있는 인사이트를 확보합니다.
해당 업무는 중요하지만 매력적이지는 않습니다. 작업자는 리뷰를 읽고 메모한 후 다음 작업으로 넘어갑니다. 응답이 필요한 개별 리뷰에는 플래그가 지정되고 여러 리뷰의 피드백 요약이 작성되어 제품 또는 카테고리 관리자가 검토할 수 있습니다.
이러한 작업은 자동화하기에 적합한 유형입니다. 사이트에 쏟아지는 리뷰의 양이 많기 때문에 이 작업의 세부적인 부분은 제품의 중요도에 따라 다양한 창에서 제한된 제품 하위 집합에 대해 수행되는 경우가 많습니다. 보다 정교한 조직에서는 코스 또는 부적절한 언어를 감지하는 규칙과 사용자 정서를 추정하거나 긍정적, 부정적 또는 중립적 경험에 대한 리뷰를 분류하는 모델을 적용하여 문제가 있는 콘텐츠를 식별하고 리뷰어의 주의를 환기시킬 수 있습니다. 하지만 어느 쪽이든, 많은 인력을 문 제에 투입할 수 없기 때문에 많은 것을 놓치고 있으며, 이러한 인력은 단조로운 업무에 지루해하거나 피로감을 느끼는 경향이 있습니다.
대규모 언어 모델로 제품 리뷰 분석 자동화 가능
하지만 LLM을 사용하면 대규모 처리 및 일관성 문제를 쉽게 해결할 수 있습니다. 제품 리뷰를 모델에 가져와서 물어보기만 하면 됩니다:
- 이 리뷰에서 발견되는 부정적인 피드백의 상위 세 가지 포인트는 무엇인가요?
- 고객이 이 제품에서 가장 좋아하는 기능은 무엇인가?
- 고객이 지불하는 금액에 비해 제품에서 충분한 가치를 받고 있다고 느끼는가?
- 특히 부정적이거나 부적절한 언어를 사용하는 리뷰가 있나요?
몇 초 안에 깔끔한 응답을 얻을 수 있으므로 제품 관리자는 단순히 문제를 감지하는 대신 문제 대응에 집중할 수 있습니다.
하지만 정확성과 편견의 문제는 어떨까요? LLM 결과물의 부정확성과 편향성을 식별하는 표준은 조직의 기대에 부합하는 결과물을 더 잘 보장하는 기술과 함께 발전하고 있으며, 승인된 콘텐츠를 사용하여 모델을 미세 조정하면 모델이 최소한 조직이 선호하는 커뮤니케이션 방식에 부합하는 콘텐츠를 생성하도록 보장하는 데 큰 도움이 될 수 있습니다.
이것은 아직까지 이 문제에 대한 이상적인 해결책이 없다는 것을 장황하게 설명하는 것입니다. 하지만 사람 중심의 프로세스와 보다 단순한 모델 또는 규칙 기반 접근 방식을 사용하는 현재 상황과 비교했을 때, 그 결과는 현재보다 더 나아지거나 최소한 나쁘지는 않을 것으로 예상됩니다. 또한 이러한 검토 요약은 내부용으로 작성된 것이므로 잘못된 모델의 영향은 쉽게 관리할 수 있습니다.
지금 바로 솔루션을 구축할 수 있습니다
이 작업을 정확히 어떻게 수행할 수 있는지 보여드리기 위해 제품 리뷰를 요약하는 솔루션 엑셀레이터를 구축했습니다. 이는 이전에 게시된 Sean Owen의 블로그를 기반으로 하며, 이 블로그에서는 데이터브릭스 플랫폼에서 LLM을 튜닝할 때 발생하는 몇 가지 핵심적인 기술적 과제를 다루었습니다. 데이터브릭스에서는 2백만 권의 서적에 걸쳐 5,100만 건의 사용자 생성 리뷰가 포함된 Amazon 제품 리뷰 데이터셋을 사용하고 있는데, 이는 광범위한 리뷰어 콘텐츠에 대한 액세스를 제공하고 많은 조직이 인식할 수 있는 확장 과제를 제시하기 때문입니다.
제품 관리자 팀이 온라인 리뷰를 통해 고객 피드백을 받는 시나리오를 상상해 보겠습니다. 이러한 리뷰는 특정 항목과 관련하여 해결해야 할 문제를 식별하고 향후 사이트에서 제공할 도서를 조정하는 데 중요합니다. 기술을 사용하지 않으면 이 팀은 모든 피드백을 읽고 실행 가능한 노트로 요약하는 데 어려움을 겪습니다. 그 결과, 가장 중요한 항목에만 주의를 기울이고 산발적으로만 피드백을 처리할 수 있었습니다.
하지만 데이터브릭스를 사용하면 더 광범위한 제품에서 피드백을 수집하고 이를 정기적으로 요약하는 파이프라인을 설정할 수 있습니다. 긍정적인 평가를 받은 제품은 강점을 강조하고 낮은 평가 를 받은 제품은 약점에 초점을 맞출 가능성이 높다는 점을 인식하고, 사용자가 제공한 평가에 따라 리뷰를 구분하고 각 상위 리뷰 카테고리에서 다양한 정보 세트를 추출하도록 LLM에 작업을 할당합니다.
제품 관리자가 받은 피드백에 대한 개요를 확인할 수 있도록 요약 메트릭이 제공되며, LLM이 생성한 더 자세한 요약이 이를 뒷받침합니다. (그림 1)
데이터브릭스는 솔루션의 모든 구성 요소를 통합합니다
위에 설명한 시나리오는 LLM을 사용했을 때를 가정한 것입니다. 몇 달 전만 해도 이러한 LLM을 사용하려면 전문화된 컴퓨팅 인프라에 접근해야 했지만, 오픈 소스 커뮤니티의 발전과 데이터브릭스 플랫폼에 대한 투자로 이제 로컬 데이터브릭스 환경에서 LLM을 실행할 수 있게 되었습니다.
이 특정 시나리오에서는 데이터의 민감도가 해당 선택의 동기가 되지 않았습니다. 대신 처리해야 할 리뷰의 양이 Databricks를 사용하는 것이 비용 측면에서 유리하다는 것을 알게 되었고, 타사 서비스를 사용하여 유사한 솔루션을 구현하는 데 드는 비용의 약 1/3을 절감할 수 있었습니다.
또한 자체 인프라를 구현함으로써 외부 서비스의 제약에 신경 쓸 필요 없이 환경을 확장하여 한 번의 테스트에서 시간당 76만 건의 리뷰를 처리하는 등 더 빠른 처리를 위한 확장성을 확보할 수 있었습니다. 대부분의 조직에서 이 정도 수준으로 확장할 필요는 없겠지만, 확장할 필요가 있을 때를 대비해 두는 것이 좋습니다.
하지만 이 솔루션은 단순한 LLM 그 이상입니다. 전체 솔루션을 통합하려면 들어오는 검토를 받고, 모델에 제출할 수 있도록 준비하고, 추가 분석을 위해 모델 출력을 캡처하는 데이터 처리 워크플로우를 개발해야 했습니다. 통합 데이터 플랫폼인 데이터브릭스는 데이터 복제 없이 데이터 엔지니어링 및 데이터 과학 요구 사항을 모두 해결할 수 있는 수단을 제공합니다. 검토 처리가 끝나면 분석가들은 자신이 선택한 도구를 사용하여 결과를 조회하고 비즈니스 의사 결정을 내릴 수 있습니다. 데이터브릭스를 통해 비즈니스 요구사항에 부합하는 솔루션을 구축할 수 있는 모든 기능을 이용할 수 있습니다.