주요 컨텐츠로 이동

벤치마크와 검토 요청 기능으로 Genie Space 신뢰도 높이기

이 포스트 공유하기

Summary

  • AI/BI Genie에 추가된 벤치마크 기능과 리뷰 요청 기능을 이용하여 Genie가 더 정확하고 신뢰할 수 있는 응답을 내도록 개선할 수 있습니다.
  • 벤치마크 기능은 Genie 관리자가 Genie space의 정확성을 체계적으로 평가할 수 있게 해줍니다.
  • 사용자는 리뷰 요청 기능을 통해 Genie 관리자에게 응답의 정확성을 검토하거나 수정하도록 요청할 수 있으며, 이에 대한 확인을 받을 수 있습니다.

Generated by AI

AI/BI Genie 는 비즈니스 팀이 자연어를 통해 데이터를 기반으로 통찰을 얻을 수 있도록 돕는 대화형 서비스입니다. Genie는 조직의 데이터, 사용 패턴, 비즈니스 개념에 맞춘 생성형 AI를 활용하여, 사용자의 피드백을 통해 지속적으로 학습합니다. 이를 통해 기술 비전문 사용자도 경험이 많은 동료에게 묻듯이 질문을 하고, 직접적으로 기업 데이터를 통해 적합하고 정확한 응답을 받을 수 있습니다.

Genie space의 사용이 증가함에 따라, 사용자가 제공된 통찰의 정확성에 대해 신뢰를 가지는 것이 매우 중요해졌습니다. 이러한 신뢰는 Genie가 제공하는 통찰에 기반하여 정보에 근거한 결정을 내릴 수 있도록 돕는 핵심 요소입니다.

비즈니스 팀을 위한 Genie space를 만들고 유지 관리하는 데이터 전문가들은 일반적으로 두 가지 주요 요구 사항을 언급합니다.

  • Genie space 내에 유지되는 지침(instruction)과 예시(example)가 전체적인 정확성을 효과적으로 개선할 수 있도록 하는 기능.
  • 필요시 Genie가 생성한 응답이 정확한지 확인하고, 그 피드백을 최종 사용자에게 전달할 수 있는 기능.

이러한 요구 사항을 해결하기 위해 AI/BI Genie에 두 가지 새로운 기능을 도입하여 응답의 정확성에 대한 신뢰를 구축할 수 있도록 지원합니다.

  1. 벤치마크 - Genie 관리자는 테스트 질문을 만들어 Genie 공간의 지침 및 설정을 업데이트할 때 전체 정확도를 추적할 수 있습니다.
  2. 리뷰 요청 - 사용자는 Genie 관리자에게 응답의 정확성을 검토하거나 수정하도록 요청할 수 있으며, 이에 대한 확인을 받을 수 있습니다.

벤치마크 (Benchmarks)

벤치마크는 Genie 관리자 Genie space의 정확성을 체계적으로 평가할 수 있게 해줍니다. 잘 설계된 벤치마크 질문 세트는 사용자가 자주 묻는 질문과, 질문의 문구를 2-3가지 변형한 버전을 포함해야 합니다. 관리자는 이 벤치마크를 지속적으로 실행하여 space에 대한 수정이 전체적인 정확성 개선에 효과적인지를 확인할 수 있습니다.

벤치마크 사용 방법

벤치마크를 사용하여 Genie space의 정확성을 더 잘 평가하려면 다음 단계를 따르세요:

  1. 준비: Genie space에 깨끗한 테이블과 메타데이터가 포함되어 있는지 확인하세요. 몇 가지 일반적인 사용자 질문을 수동으로 테스트하고 기본 정확도를 향상시키기 위한 지시사항(instruction)을 추가해보세요.
  2. 벤치마크 추가: 벤치마크를 추가할 때는 사용자들이 자주 묻는 질문의 다양한 문구와 버전을 반영해야 합니다. 예를 들어, 사용자가 “올해 총매출 기준 상위 10명의 고객”을 자주 묻는다면, “2024 회계연도 매출 상위 10명 고객”이나 “올해 매출 기준 상위 10명의 고객을 보여줘”와 같은 변형된 문구로 벤치마크를 설정하는 것이 유용합니다. 그런 다음, 해당 벤치마크 질문에 정확히 답할 수 있는 SQL 문을 추가합니다. 이를 통해 평가 기능이 각 질문에 대해 Genie의 응답을 신뢰할 수 있는 정답과 비교할 수 있습니다.
  3. 벤치마크 실행 + 평가: 대표적인 벤치마크 세트를 구축한 후 '벤치마크 실행(Run Benchmarks)'을 클릭하여 모든 벤치마크 질문에 대해 Genie를 자동으로 평가할 수 있습니다. 각 질문에는 '정확함(Correct)' 또는 '검토 필요(Needs Review)'라는 평가 레이블이 부여됩니다: Genie의 쿼리 결과가 벤치마크의 쿼리 결과와 정확히 일치하면 질문은 '정확함'으로 표시됩니다.
     
  4. 개선: 특정 질문을 더블 클릭하여 Genie에서 개선이 필요한 부분을 파악하세요. Genie space에서 좋은 결과가 나오지 않는 특정 질문을 확인한 후, Genie space을 개선해 보세요. 예를 들어, “아시아 지역 최고의 영업 담당자”를 계산하는 방법을 Genie에게 알려줄 지침이 필요하다는 것을 발견할 수 있습니다. 이 경우, 지침(instructions) 페이지로 이동하여 해당 질문에 적절히 답할 수 있도록 Genie에게 예제 SQL 쿼리를 추가합니다.
  5. 벤치마크 재실행: 내 space의 지침을 개선한 후 벤치마크 세트를 다시 실행하여 전체 정확도가 향상되었는지 확인합니다. 평가 탭에서 Genie space의 정확성을 시간에 따라 추적할 수 있습니다. 최종 사용자가 자주 묻는 공통 질문을 발견할 때마다 벤치마크 질문을 계속 추가해 보세요.

리뷰 요청 (Request Review)

Genie는 기술 비전문 사용자도 데이터 분석 전문가의 도움 없이 후속 질문을 하며 새로운 통찰을 얻을 수 있도록 해주는 강력한 탐색형 데이터 분석 도구입니다. 하지만 Excel과 같은 도구에서 분석을 할 때와 마찬가지로, 결과를 사실로 제시하기 전에 확인이 필요할 수 있습니다.

리뷰 요청(Request Review) 기능은 최종 사용자가 Genie 내에서 직접 이 검토 과정을 완료할 수 있게 해주어, Slack이나 Teams에서 스크린샷을 공유하며 주고받는 과정을 생략할 수 있습니다.

리뷰 요청 사용 방법

  1. 요청 버튼 클릭: 사용자는 검증하고 싶은 답변에 대해 요청 아이콘을 클릭하여 검토를 시작할 수 있습니다. 요청 시 Genie space 관리자에게 설명을 덧붙이는 것이 좋습니다.
  2. 관리자 리뷰: 요청이 전송되면, Genie space 관리자는 History 페이지에서 요청을 검토할 수 있습니다. 여기에서 원래의 질문, 생성된 SQL, 첨부된 의견을 확인하고, SQL이 정확한지 표시하거나 비즈니스 사용자를 위해 수정할 수 있습니다.
  3. 요청자에게 알림: 생성된 SQL을 관리자가 검증하거나 수정하면, 최종 사용자는 해당 검토에 대한 알림을 받습니다. History 페이지의 개인 뷰에서 이를 확인할 수 있습니다.

결론

벤치마크와 리뷰 요청 기능의 도입으로 AI/BI Genie에서 사용자가 받는 응답의 정확성과 신뢰성이 크게 향상됩니다. 벤치마크 기능을 통해 정확성 개선을 체계적으로 추적하여, 지침 수정이 효과적으로 이루어지도록 하고, 리뷰 요청 기능을 통해 중요한 응답을 사용자가 원활하게 검증할 수 있는 방법을 제공합니다. 이 두 기능은 비즈니스 팀이 Genie를 자신 있게 활용하여 일상 업무에서 필요한 중요한 결정을 내릴 수 있도록 지원합니다.

아직 Genie space를 생성하지 않았다면 지금 시작해 보세요. AI/BI Genie에 대한 문서를 꼭 읽어 보시고, AI/BI 대시보드와 Genie의 실제 작동을 보고 싶다면 데모제품 투어를 확인해 보세요.

데이터브릭스 팀은 AI/BI Genie의 경험을 개선하기 위해 항상 노력하고 있으며, 여러분의 피드백을 환영합니다!

 

(번역: Youngkyong Ko)  Original Post

Databricks 무료로 시작하기

관련 포스트

AI/BI 소개: 실제 환경의 데이터를 위한 지능형 분석

오늘, 데이터의 의미를 심층적으로 이해하고 누구나 스스로 데이터를 분석할 수 있도록 처음부터 구축된 새로운 유형의 비즈니스 인텔리전스 제품인 Databricks AI/BI 를 발표하게 되어...

새로운 AI/BI Genie 시작하기

September 2, 2024 작성자: 차오 차이, Richard Tomlinson in
데이터브릭스에서는 전 세계 모든 사람이 데이터와 AI를 쉽게 활용할 수 있도록 돕고자 합니다. 이를 위해, SQL을 몰라도, 코드를 작성하지 않아도, 비즈니스 사용자가 신뢰할...

AI Powered BI for Games

September 24, 2024 작성자: Huntting Buckley, Duncan Davis in
“So often I’m asked to produce a dashboard but the request isn’t always clear, even after having a conversation with the person. This...
모든 플랫폼 블로그 포스트 보기