(번역: Sang-bae Lim) Original Blog Post
"소프트웨어가 세상을 집어삼키고 있다"는 견해는 최신 기술 산업을 대변하고 있습니다. 오늘날 소프트웨어는 우리가 착용하는 시계부터 집, 자동차, 공장 및 농장에 이르기까지 우리 삶의 어디에나 있습니다. Databricks는 머지않아 AI가 모든 소프트웨어를 집어삼킬 것이라고 믿습니다. 즉, 지난 수십 년 동안 구축된 소프트웨어는 데이터를 활용하여 지능화되어 훨씬 더 현명해질 것입니다. 그 영향은 방대하고 다양하며 고객 지원에서 의료 및 교육에 이르기까지 모든 것에 영향을 미칩니다.
이 블로그에서는 AI가 데이터 플랫폼을 어떻게 변화시킬 것인지에 대해 설명합니다. 데이터 플랫폼에 대한 AI의 영향은 점진적인 것이 아니라 데이터 액세스의 대중화, 수동 관리의 자동화, 맞춤형 AI 애플리케이션의 턴키 제작 지원 등 근본적인 변화를 가져올 것이라고 주장합니다. 이 모든 것은 조직의 데이터를 심층적으로 이해하는 새로운 통합 플랫폼을 통해 가능해질 것입니다. 이러한 차세대 시스템을 데이터 인텔리전스 플랫폼이라고 부릅니다.
지금까지의 데이터 플랫폼과 그 과제
데이터 웨어하우스는 1980년대에 기업에서 구조화된 비즈니스 데이터를 구성하기 위한 솔루션으로 등장했습니다. 그러나 2010년에 이르러 조직은 AI와 같은 보다 다양한 사용 사례를 지원하기 위해 상당한 양의 비정형 데이터를 축적하기 시작했습니다. 이 문제를 해결하기 위해 데이터 레이크는 모든 유형의 데이터를 위한 확장 가능한 개방형 시스템으로 도입되었습니다. 2015년에는 대부분의 조직이 데이터 웨어하우스와 데이터 레이크를 모두 운영하는 것이 보편화되었습니다. 그러나 이러한 이중 플랫폼 접근 방식은 거버넌스, 보안, 안정성 및 관리에서 중요한 문제를 야기했습니다.
5년 전, 데이터브릭스는 두 세계의 장점을 결합하고 통합하기 위해 레이크하우스 개념을 개척했습니다. 레이크하우스는 모든 데이터를 개방형 형식으로 저장 및 관리하며, BI에서 AI에 이르는 다양한 워크로드를 기본적으로 지원합니다. 레이크하우스는 처음으로 (1) 조직이 보유한 모든 데이터를 쿼리하고 (2) 데이터를 사용하는 모든 워크로드(BI, AI 등)를 일원화된 방식으로 관리할 수 있는 통합 시스템을 제공했습니다. 레이크하우스는 자체 데이터 플랫폼 범주가 되었으며, 현재 기업에서 널리 채택하고 있으며 대부분의 공급업체 스택에 통합되어 있습니다.
이러한 진전에도 불구하고 현재 시장에 나와 있는 모든 데이터 플랫폼은 여전히 다음과 같은 몇 가지 주요 과제에 직면해 있습니다.
- 기술 역량 장벽: 데이터를 쿼리하려면 SQL, Python 또는 BI에 대한 전문 기술이 필요하므로 학습에 많은 노력이 필요합니다.
- 데이터 정확 성 및 큐레이션: 대규모 조직에서는 올바르고 정확한 데이터를 찾는 것이 어려우며 광범위한 큐레이션과 계획이 필요합니다.
- 관리 복잡성: 데이터 플랫폼은 고도의 기술 인력이 관리하지 않을 경우 비용이 급증하고 성능이 저하될 수 있습니다.
- 거버넌스 및 개인 정보 보호: 전 세계적으로 거버넌스 요구 사항이 빠르게 진화하고 있으며 AI의 출현으로 계보, 보안 및 개인 정보 보호에 대한 우려가 증폭되고 있습니다.
- 새로운 AI 애플리케이션: 도메인별 요청에 응답하는 생성형 AI 애플리케이션을 구현하기 위해 조직은 데이터와 분리된 플랫폼에서 LLM을 개발 및 조정하고 수동 엔지니어링을 통해 데이터에 연결해야 합니다.
이러한 문제의 대부분은 데이터 플랫폼이 조직의 데이터와 데이터 사용 방법을 근본적으로 이해하지 못하기 때문에 발생합니다. 다행히도 생성형 AI는 바로 이러한 문제를 해결할 수 있는 강력하고 새로운 도구를 제공합니다.
데이터 인텔리전스 플랫폼의 핵심 아이디어
데이터 인텔리전스 플랫폼은 AI 모델(AI Model)을 사용하여 엔터프라이즈 데이터의 의미를 깊이 이해함으로써 데이터 관리를 혁신합니다. 우리는 이것을 데이터 인텔리전스라고 부릅니다. 기업 전체의 모든 데이터를 쿼리하고 관리하는 통합 시스템인 레이크하우스를 기반으로 구축되지만 데이터(콘텐츠 및 메타데이터)와 사용 방법(쿼리, 보고서, 계보 등)을 모두 자동으로 분석하여 새로운 기능을 추가합니다. 데이터에 대한 이러한 심층적인 이해를 통해 데이터 인텔리전스 플랫폼은 다음을 가능하게 합니다.
- 자연어 액세스: 데이터 인텔리전스 플랫폼은 AI 모델을 활용하여 각 조직의 전문 용어 및 약어에 맞게 조정된 자연어로 데이터 작업을 가능하게 합니다. 이 플랫폼은 기존 워크로드에서 데이터가 어떻게 사용되는지 관찰하여 조직의 용어를 학습하고 비전문가부터 데이터 엔지니어에 이르기까지 모든 사용자에게 맞춤형 자연어 인터페이스를 제공합니다.
- 시맨틱 카탈로그 작성 및 검색: 생성형 AI는 각 조직의 데이터 모델, 메트릭 및 KPI를 이해하여 탁월한 검색 기능을 제공하거나 데이터 사용 방식의 불일치를 자동으로 식별할 수 있습니다.
- 자동화된 관리 및 최적화: AI 모델은 데이터 사용량에 따라 데이터 레이아웃, 파티셔닝 및 인덱싱을 최적화하여 수동 튜닝 및 설정 구성의 필요성을 줄일 수 있습니다.
- 거버넌스 및 개인 정보 보호 강화: 데이터 인텔리전스 플랫폼은 민감한 데이터의 오용을 자동으로 감지, 분류 및 방지하는 동시에 자연어를 사용하여 관리를 간소화할 수 있습니다.
- AI 워크로드에 대한 최고 수준의 지원: 데이터 인텔리전스 플랫폼은 관련 비즈니스 데이터에 연결하고 데이터 인텔리전스 플랫폼에서 학습한 의미 체계(메트릭, KPI 등)를 활용하여 정확한 결과를 제공할 수 있도록 함으로써 모든 엔터프라이즈 AI 애플리케이션을 향상시킬 수 있습니다. AI 애플리케이션 개발자는 더 이상 취약한 프롬프트 엔지니어링을 통해 인텔리전스를 함께 "해킹"할 필요가 없습니다.
이것이 지난 몇 년 동안 BI 도구에 추가된 자연어 Q&A 기능과 어떻게 다른지 궁금해하는 사람도 있을 수 있습니다. BI 도구는 전체 데이터 워크로드 중 극히 일부(중요하지만) 로 발생하는 대부분의 워크로드 또는 BI 계층에 도달하기 전에 데이터의 계보 및 사용에 대한 가시성이 없습니다. 이러한 워크로드에 대한 가시성이 없으면 필요한 심층적인 의미론적 이해를 개발할 수 없습니다. 따라서 이러한 자연어 Q&A 기능은 아직 널리 채택되지 않았습니다. 데이터 인텔리전스 플랫폼을 통해 BI 도구는 훨씬 더 풍부한 기능을 위해 기본 AI 모델을 활용할 수 있습니다. 따라서 우리는 이 핵심 기능이 데이터 플랫폼에 탑재될 것이라고 믿습니다.