오늘, 데이터의 의미를 심층적으로 이해하고 누구나 스스로 데이터를 분석할 수 있도록 처음부터 구축된 새로운 유형의 비즈니스 인텔리전스 제품인 Databricks AI/BI를 발표하게 되어 기쁘게 생각합니다. AI/BI는 ETL 파이프라 인, 리니지, 기타 쿼리 등 데이터브릭스 플랫폼 전반의 전체 수명 주기에서 데이터에 대한 인사이트를 도출하는 복합 AI 시스템을 기반으로 구축되었습니다. 이는 두 가지 상호 보완적인 제품 경험을 지원합니다:
- AI/BI 대시보드: 고정된 비즈니스 질문에 답하기 위해 기본적으로 기대할 수 있는 모든 기존 BI 기능을 포함하는 AI 기반의 로우코드(low-code) 대시보드 솔루션입니다.
- Genie: 사람의 피드백을 기반으로 기본 데이터와 의미를 지속적으로 학습하고, 추론 기능을 기반으로 훨씬 더 광범위한 비즈니스 질문에 답하는 동시에, 데이터 팀이 지정한 쿼리 패턴에 대해 인증된 답변을 제공할 수 있는 대화형 인터페이스입니다.
이러한 기능을 통해 AI/BI는 진정한 셀프 서비스 BI로 한 걸음 더 나아갈 수 있으며, 일반 사용자가 수행할 수 있는 분석의 범위가 크게 넓어집니다. 또한, 데이터브릭스 데이터 인텔리전스 플랫폼과 AI/BI의 통합을 통해 모든 데이터 규모에서 통합 거버넌스, 리니지 추적, 안전한 공유와 최고 수준의 성능을 보장합니다.
이 블로그에서는 데모를 넘어 GenAI가 BI에서 지금까지 어려움을 겪고 있는 이유에 대해 설명합니다. 그런 다음 AI/BI의 설계가 이러한 문제를 극복할 수 있다고 믿는 이유를 논의하고 실제 사례를 통해 이를 검증합니다.
GenAI가 BI에서 부족한 이유
지난 30년 동안 비즈니스 사용자는 데이터에 대한 질문에 답하기 위해 보고서와 대시보드를 제공받아 왔습니다. 그러나 비즈니스가 발전함에 따라, 이러한 사용자는 새로운 질문에 답하기 위해 새로운 비주얼리제이션을 만들기 위해 부족하고 업무가 과중한 데이터 전문가에게 의존하고 있습니다. 비즈니스 사용자와 데이터 팀은 수많은 대시보드를 생성하지만 여전히 많은 질문에 대한 답을 얻지 못하는 끝없는 순환에 갇혀 있습니다.
LLM에 대한 관심이 높아지면서 BI 업계에서는 이 문제를 해결하기 위해 AI 비서를 BI 도구에 통합하는 새로운 물결이 일기 시작했습니다. 안타깝게도 이러한 서비스는 개념상으로는 유망하고 인상적인 제품 데모를 만들 수 있지만, 현실에서는 실패하는 경향이 있습니다. 실제 데이터 분석의 지저분한 데이터, 모호한 언어, 미묘한 복잡성에 직면하면 이러한 "접합형(bolt-on)" AI 경험은 유용하고 정확한 답변을 제공하기 어렵습니다.
스키마 자체에는 비즈니스 프로세스와 메트릭의 정의, 복잡한 데이터를 처리하는 방법 등 많은 지식이 누락되어 있기 때문에 단순히 LLM 으로 데이터베이스 스키마를 가리키고 텍스트를 SQL로 변환(text-to-SQL)하는 것만으로는 충분하지 않습니다. 다른 접근 방식은 이러한 이해를 공식적인 의미론적 모델로 포착하는 것이지만, 상당한 사전 투자가 필요하고 모든 뉘앙스를 포착할 수 없으며 데이터와 비즈니스 프로세스가 진화함에 따라 최신 상태로 유지하기가 비현실적입니다.
복합 AI 시스템
"실제" 의미론적 모델은 사람들의 머릿속에 존재하며, 쿼리를 실행하고 대시보드를 만들고 분석을 수행하기 위해 데이터브릭스 시스템과 상호 작용할 때마다 쏟아져 나옵니다. Databricks AI/BI는 데이터브릭스 전반의 상호 작용에서 이러한 이해를 포착하여 데이터 인텔리전스 플랫폼에서 이미 제공되는 컨텍스트를 보강하고, 그 결과 지식을 활용하여 실제 세계에서 유용한 답을 제공하는 새로운 BI 제품입니다.
AI/BI의 핵심은 AI 에이전트의 앙상블을 활용하여 비즈니스 질문에 대해 추론하고 유용한 답변을 생성하는 복합 AI 시스템입니다. 각 에이전트는 계획, SQL 생성, 설명, 시각화 및 결과 인증과 같은 좁지만 중요한 작업을 담당합니다. 이러한 특수성 때문에 엄격한 평가 프레임워크와 세밀하게 조정된 최첨단 LLM을 만들 수 있습니다. 또한 이러한 에이전트는 랭킹 시스템 및 벡터 인덱스와 같은 다른 구성 요소의 지원을 받습니다. 이러한 요소들을 함께 사용하면 개별적인 모놀리스 모델을 훨씬 뛰어넘는 추론 기능을 제공할 수 있습니다.
이 시스템은 사람의 피드백을 기반으로 지속적으로 학습하고 성능을 개선하도록 설계되었습니다. 예를 들어, 이탈한 고객의 정의를 알려주면 AI/BI는 해당 지식을 사용하여 유사한 쿼리(예. 유럽-중동-아프리카의 고객 이탈률과 미국의 고객 이탈률)을 비교하고, 이러한 지식을 사용하여 이탈률을 계산하거나 유지 고객의 의미를 추론할 수도 있습니다. 마치 인간 분석가처럼, AI/BI 는 한 번의 분석이나 대화로 끝나는 것이 아니라 점점 더 나은 지식을 얻기 위해 이러한 지식을 유지합니다. AI/BI 또한 데이터브릭스 플랫폼에서 ETL 파이프라인, 리니지, 인기도 통계, 데이터에 대한 기타 쿼리 등, 데이터에 대한 다른 정보로부터 학습합니다.
이 복합 AI 시스템은 대시보드와 genie 를 구동하는 데 사용됩니다.
AI/BI 대시보드
앞서 언급한 단점에도 불구하고, 대시보드는 정기적으로 사용할 수 있도록 미리 준비된 분석을 운영하는 가장 효과적인 수단입니다. AI/BI 대시보드는 원하는 데이터와 차트를 쉽게 구성할 수 있는 AI 기반의 로우코드 작성 환경을 통해 이 과정을 최대한 간단하게 만들어 줍니다.
세련된 시각화, 교차 필터링, 이메일을 통한 정기적인 PDF 스냅샷 등 일반적인 BI 기능이 함께 제공됩니다. 하지만 주목할만한 점은 번거로운 의미론적 모델, 데이터 추출, 관리해야 할 새로운 서비스 등 사용자가 원치 않는 것들이 없다는 점입니다. 또한 대시보드에서 볼 수 없는 인사이트는 클릭 한 번으로 보완적인 Genie 공간으로 이동하여 탐색할 수 있습니다.
Genie
대시보드로는 답이 나오지 않는 크고 끊임없이 변화하는 질문에 답하기 위해, 대화형 인터페이스인 Genie를 통해 AI/BI의 추론 엔진의 기능을 노출합니다. Genie는 더 이상 고정된 차트 세트에 국한되지 않고 기초 데이터를 학습하고 쿼리와 시각화를 통해 사용자의 질문에 유연하게 답변할 수 있습니다. 필요한 경우 설명을 요청하고 적절한 경우 다른 경로를 제안합니다.
하지만 더 중요한 것은 Genie가 단순히 해독불가능한 블랙박스가 아니라는 점입니다. 비즈니스 사용자가 묻는 질문의 유형은 매우 까다로울 수 있으며, 블랙박스 AI 시스템이 답을 제공한다고 해서 무조건 신뢰해서는 안 됩니다. 따라서 전체 Genie 워크플로는 분석가가 가정을 검증하고 필요에 따라 부족한 부분을 채울 수 있는 일련의 도구를 제공하여 사람의 피드백을 통해 시간이 지남에 따라 AI를 개선하도록 설계되었습니다. 지침, 인증된 답변, 신뢰도 투표와 품질 모니터링은 데이터 팀이 Genie의 성능을 추가로 조정, 큐레이팅 및 벤치마킹하여 비즈니스 사용자에게 최대한 신뢰할 수 있는 결과를 제공할 수 있도록 도와줍니다.
Genie는 또한 에이전트 개념의 "툴(tools)"을 사용하여 신뢰성을 보장하는 메커니즘을 제공합니다. "인증된 답변"이라는 개념을 통해, 분석가는 Unity Catalog 함수 및 메트릭과 같이 신뢰할 수 있는 관리되는 로직에 대해 시스템에 알려주고, 그러면 시스템은 이를 질문에 답하기 위한 "툴"로 사용할 수 있습니다. 이렇게 하면 시스템 측에서 잘못된 로직을 추론할 가능성을 제거할 수 있습니다. 지니는 이러한 "툴"을 AI/BI의 추론 프레임워크에 통합하여 질문에 답하기 위해 적절하게 호출하고, 신뢰할 수 있는 답변을 사용자에게 제공합니다.
플랫폼 통합
AI/BI는 데이터 인텔리전스 플랫폼과 긴밀하게 통합되어 그 위에 구축됩니다. 즉, 즉시 사용 가능한 AI/BI 기능을 제공합니다:
- 통합 거버넌스 및 리니지: AI/BI는 데이터브릭스 Unity Catalog에 긴밀하게 통합되어 있습니다. 동일한 거버넌스 프레임워크를 따르며, 관리자가 설정한 모든 글로벌 정책이 AI/BI에 적용됩니다. 또한 Unity Catalog의 리니지 기능 덕분에 데이터 생산자나 관리자는 데이터 자산이 AI/BI에서 어떻게 사용되는지 관찰할 수 있으며, 최종 사용자는 데이터셋의 출처를 데이터 수집까지 거슬러 올라갈 수 있으므로 분석에 대한 신뢰도를 높일 수 있습니다.
- 새로운 사용자 라이선스 없이 간편한 공유: AI/BI 는 데이터브릭스 IAM 플랫폼에 바로 내장되어 있으며, Entra ID 또는 Okta와 같은 IDP와 직접 통합되므로 조직의 모든 사람과 분석을 쉽게 공유할 수 있습니다. Databricks AI/BI 에는 시트 기반 제한이 없으므로 새 라이선스를 구매할 걱정 없이 조직의 모든 사람을 추가할 수 있습니다.
- 업계 최고의 가격 대비 성능: AI/BI는 Databricks SQL 데이터 웨어하우스 및 고성능 처리를 위해 최적화된 Photon 엔진과 긴밀하게 통합되어 있습니다. 메가바이트부터 페타바이트까지 데이터 용량에 관계없이 최고의 성능을 제공합니다.
- 데이터 추출 불필요: 따라서 더 이상 관심 있는 데이터 집합을 별도의 BI 엔진으로 추출할 필요가 없으므로 데이터의 최신성이 향상되고 데이터 거버넌스가 간소화됩니다.
실제 환경 검증
지난 몇 달 동안 여러 고객과 함께 비공개 미리 보기로 AI/BI를 테스트해 왔습니다. AI/BI는 모든 답을 이미 알고 있는 전지전능한 인공지능이 아니라는 점을 강조하고 싶습니다. 하지만 초기 피드백은 매우 고무적입니다. 비즈니스 사용자부터 회사 경영진에 이르기까지 모든 유형의 사용자가 이제 데이터 팀에 대한 의존도를 줄이고 더 많은 질문에 스스로 답할 수 있게 되었다고 보고했습니다.
다음은 얼리 어답터들이 AI/BI에 대해 말하는 내용입니다:
Brian Fox, Sonatype CTO: "AI/BI Genie를 사용하는 것과 과거의 노력을 비교하는 것은 밤과 낮을 비교하는 것과 같습니다. 제가 SQL을 제대로 사용한 게 20년이 지났기 때문에 AI가 데이터를 검색하는 것은 마법과도 같습니다. 이제 저는 매일 SQL을 사용 하는 사람의 도움 없이도 이러한 분석을 수행할 수 있습니다."
Felix Baker, SEGA Europe 데이터 서비스 부문장: "SEGA에서는 대시보드와 쿼리를 구성하기 위해 데이터 전문가에게 의존하지 않고도 매출과 플레이어 행동에 대해 실시간으로 즉석에서 질문할 수 있도록 하여 조직의 의사 결정권자를 지원하기 위해 AI/BI 를 사용하고 있습니다. 이제 사용자는 자연어로 질문하는 것만으로 게임 판매/영업 및 게임 플레이 데이터에 대한 자세한 인사이트를 얻을 수 있습니다. AI/BI를 활용하여 데이터를 민주화하고 생산성을 높이며 SEGA 전체에서 데이터 기반 의사 결정의 속도를 향상시킬 수 있게 되어 매우 기쁩니다."
Nick Crnkovich, Block.xyz 분석 지원 책임자: "AI/BI 대시보드를 사용하면 추가 연결이나 추출을 구성할 필요 없이 데이터가 이미 존재하는 동일한 플랫폼에서 인사이트를 신속하게 생성하고 배포할 수 있습니다. 크리에이터는 개발 과정에서 AI를 활용할 수 있고, 비즈니스 사용자는 추가적인 복잡성 없이 데이터를 집중적으로 볼 수 있는 이점을 누릴 수 있다는 점이 중요합니다."
Philipp Cüppers, Vattenfall Hydro Germany 에너지 시장 및 자산 최적화 팀장: "데이터브릭스의 AI/BI 솔루션은 데이터와 인사이트를 대중화할 수 있는 새로운 도구를 제공했습니다. 향상된 대시보드는 빠르게 생성하고 쉽게 공유할 수 있어 중요한 데이터에 대한 통합 뷰를 제공하는 데 있어 우리가 선호하는 방식이며, Genie는 비즈니스 사용자가 실시간으로 스스로 질문하고 답할 수 있게 해줍니다. 최근에는 주요 이해관계자가 데이터 분석가에게 의존하지 않고도 실시간 토론에서 전력 시장과 자산 성과에 대해 질문하고 답변할 수 있도록 Genie를 제공했습니다."
다음 단계
데이터의 전체 라이프사이클에서 인사이트를 도출할 수 있는 복합 AI 시스템이 비즈니스 인텔리전스의 세계를 혁신적으로 변화시킬 것이라고 믿습니다. AI/BI의 초기 릴리스는 이러한 잠재력을 실현하기 위한 첫 번째 단계이지만 중요한 진전입니다. 시간이 지남에 따라 사용량이 증가하고 시스템이 발전함에 따라 시스템은 더욱 스마트해질 것입니다. 엔드투엔드를 빠르게 반복할 수 있게 해주는 MosaicAI 스택에 감사하고 있습니다.
AI/BI 대시보드는 AWS 및 Azure에서 정식 출시되어 사용할 수 있으며, GCP에서는 공개 미리 보기로 제공됩니다. Genie 는 모든 AWS 및 Azure 고객에게 공개 미리 보기로 제공되며, 곧 GCP 에서도 이용할 수 있습니다. Genie를 사용하려면 Unity Catalog 및 데이터브릭스 SQL Serverless 또는 Pro 웨어하우스가 필요합니다. 고객 관리자는 미리 보기 관리 페이지를 통해 워크스페이스 사용자를 위해 Genie를 활성화할 수 있습니다.두 제품 모두 웨어하우스 비용 외에 추가 요금은 없습니다. 대시보드를 사용하는 비즈니스 사용자의 경우 라이선스 없이 보기 전용 액세스를 제공합니다.
AI/BI에 대한 노력 너머에는 많은 BI 파트너가 데이터 인텔리전스 플랫폼에서 데이터를 더 쉽게 분석할 수 있도록 혁신하고 있다는 것을 잘 알고 있습니다. 어떤 BI 도구를 사용하든, 이 모든 조직이 비즈니스 인텔리전스에 대한 AI 우선 접근 방식의 혜택을 누릴 수 있도록 BI 파트너를 위해 추론 기능과 시맨틱 모델을 APIs 으로 개방할 수 있게 되어 기대가 큽니다.
자세한 내용은 Databricks AI/BI 웹사이트를 방문하여 데이터 및 AI 서밋의 기조연설, 세션 및 심층 콘텐츠를 확인하세요. 데이터 + AI 서밋에서 데이터 웨어하우징, 분석 및 BI 세션에 등록하거나 행사 후 온라인으로 온디맨드 녹화본을 시청하세요. 또한 @Databricks을 팔로우하여 최신 뉴스와 업데이트를 확인하세요.
(번역: Youngkyong Ko) Original Post