주요 컨텐츠로 이동

예측 최적화 일반 제공 발표

별다른 추가 작업 없이도 쿼리 성능을 2배로 높이고, 스토리지 비용을 절반으로 줄일 수 있습니다.​
미셸 레온
신디 장
비자얀 프라바카란
이 포스트 공유하기

Databricks의 예측 최적화 정식 출시를 발표하게 되어 기쁩니다. 이 기능은 쿼리 속도 향상과 스토리지 비용 절감을 위해 테이블 데이터 레이아웃을을 지능적으로 최적화합니다.

예측 최적화는 Unity Catalog를 활용하고 데이터 인텔리전스 엔진으로 구동되어 데이터에 가장 적합한 최적화 방법을 판단하고, 서버리스 인프라에서 자동으로 해당 작업을 수행합니다.

이전에는 데이터 팀이 유지 관리 운영을 직접 관리해야 했지만, 이제 Databricks 데이터 인텔리전스 플랫폼이 그 역할을 대신함으로써 관리 복잡성을 줄이고 성능과 비용 효율성을 향상시켜 줍니다.

계정 콘솔에서 예측 최적화를 활성화하여 지금 바로 시작해 보세요.

데이터 레이아웃 최적화는 어려운 문제입니다

적절한 테이블 관리는 조직의 고유한 요구사항에 맞게 데이터 레이크를 최적화하여 쿼리 성능과 비용 효율성을 크게 개선합니다. 그러나 이를 제대로 수행하려면 기술 전문성과 수작업이 필요하며 조직의 데이터와 사용 사례가 변화함에 따라 지속적인 조정이 필요합니다.

데이터 엔지니어링 팀은 이를 파악해야 합니다:

  • 어떤 최적화를 실행할 것인가?
  • 어떤 테이블을 최적화해야 하는가?
  • 최적화를 얼마나 자주 실행할 것인가?

이러한 질문들에 대한 답을 찾은 후에도, 팀들은 이러한 최적화를 실행하는데 따르는 운영부담을 관리해야 합니다. 예를 들어, 작업 스케줄링, 장애 진단, 기본 인프라 관리 등이 필요합니다.

또한, 데이터 증가, 새 테이블 추가, 액세스 패턴 변화 등에 따라 팀에서는 이러한 작업을 일회성으로 설정하는 것이 아니라 지속적으로 업데이트해야 합니다. 조직 내에서 데이터와 AI 사용 사례가 폭발적으로 증가함에 따라, 많은 고객들이 비즈니스 요구 확대로 생성된 테이블을 최적화하는 데 어려움을 겪고 있다고 말합니다.

예측 최적화를 통해 데이터 관리 문제 해결

데이터브릭스의 예측 최적화는 AI와 Unity Catalog를 활용하여 이러한 모든 작업을 대신 처리해 줌으로써, 비즈니스 가치 창출에 집중할 수 있도록 지원합니다.

지능형 분석

예측 최적화 기능은 Unity Catalog데이터 인텔리전스 엔진을 활용하여 최적화 일정을 지능적으로 결정합니다. AI 모델은 조직의 쿼리 패턴을 분석하고, 데이터 레이아웃, 테이블 속성, 성능 특성 등의 요인을 결합하여 가장 효과적인 최적화 작업을 결정합니다.

많은 고객들의 경우, 예측 최적화의 영향력과 ROI는 즉각적으로 나타납니다. 예를 들어, 대규모 에너지 기업인 Plenitude의 팀은 예측 최적화를 활성화한 직후 상당한 이점을 얻었습니다.

Databricks 예측 최적화는 FinOps 그룹이 스토리지 비용을 최소화하는 데 지속적으로 도움을 줍니다. 스토리지 비용이 즉시 26% 감소했으며, 앞으로도 추가적인 비용 절감 효과가 있을 것으로 예상됩니다. 이 기능을 통해 절차, 스크립트 및 수동 유지 관리 운영을 중단하고 즉시 사용 가능한 확장성을 확보할 수 있게 되었습니다." - 알레산드로 카로니아, 인프라 운영 관리자, Simona Fiazza, 엔드투엔드 운영 관리자, Plenitude

적응형 학습

예측 최적화는 또한 데이터 사용 패턴을 자동으로 학습하고 이에 맞게 조정합니다. 인텔리전스 엔진은 시간이 지남에 따라 조직의 사용 패턴을 학습합니다. 이를 통해 지속적인 수동개입 없이도 데이터가 항상 가장 효율적인 레이아웃으로 저장되어, 비용 절감 성능 향상으로 이어집니다..

이 자율 수행 시스템은 AI 데이터 주석 플랫폼인 Toloka AI와 같은 수작업 솔루션을 완전히 대체합니다. 

"예측 최적화(PO) 덕분에 테이블 유지보수를 위한 DIY 솔루션을 폐기할 수 있었습니다. PO는 유지 관리 운영의 이점이 있는 테이블만 최적화하므로 더 효율적이고 비용 효과적입니다. PO는 데이터 플랫폼을 간소화하여 리소스를 더 효율적으로 할당하고 데이터 관리 프로세스를 더욱 간소화합니다." - 니키타 보흐카레프, 톨로카 AI 수석 데이터 엔지니어

자동 리퀴드 클러스터링 (Automatic Liquid Clustering)

프리뷰 버전부터, 이제 예측 최적화는 vacuum 및 compaction 외에도 리퀴드 클러스터링이 적용된 테이블에 OPTIMIZE를 자동으로 실행합니다. 더 이상 클러스터링 빈도를 예약하거나 결정할 필요가 없습니다. 예측 최적화는 쿼리 성능을 개선하기 위해 최적의 주기로 클러스터링합니다.

숫자로 보는 영향력

프리뷰 버전으로 출시된 이후 예측 최적화는 엑사바이트급 데이터로 구성된 수십만 개의 테이블에 대해 지능적으로 최적화를 실행해 왔습니다. 이러한 최적화는 디스크의 파일 크기와 레이아웃을 최적화하여 쿼리 성능을 개선하고 고객들에게 연간 수백만 달러의 스토리지 절감 효과를 가져다주었습니다.

Anker와 같은 프리뷰 고객들은 쿼리 성능이 2배 향상되고 저장 공간이 50% 절약되었다고 보고했습니다.

데이터브릭스 예측 최적화를 통해 Unity Catalog 스토리지를 지능적으로 최적화하여 연간 스토리지 비용을 50% 절감하는 동시에 쿼리 속도를 2배 이상 높였습니다. 이는 가장 크고 가장 많이 액세스하는 테이블들의 우선순위를 정하는 방법을 학습했습니다. 그리고 이 모든 작업을 자동으로 수행하여 팀의 소중한 시간을 절약해 주었습니다." - Shu Li, Anker의 데이터 엔지니어링 책임자

출시 예정

예측 최적화는 수행된 최적화와 쿼리 성능 및 스토리지 절감효과에 대한 인사이트를 제공하는 내장된 가시성 대시보드를 제공하여, 예측 최적화의 이점을 투명하고 측정 가능하게 합니다.  더 자세히 살펴보고 싶다면 모든 운영이 이미 시스템 테이블에 기록되어 있으므로 완전한 가시성을 확보할 수 있습니다. 

곧 예측 최적화는 지원되는 쓰기 작업 중에 통계를 자동으로 수집할 것입니다. 예측 최적화는 백그라운드에서 ANALYZE를 실행하여 쿼리 계획 최적화에 사용되는 통계를 지능적으로 업데이트합니다. 이러한 백그라운드 작업은 통계가 오래 되었는지와 워크로드에 필요한를 추적하는 스마트 로직에 따라 실행됩니다. 자동 통계 비공개 미리 보기 또는 공개 미리 보기의 초기 단계에 참여하려면 이 양식을 작성해 주시면 연락드리겠습니다.

가까운 미래에는 예측 최적화가 모든 Unity Catalog 관리 테이블에 기본적으로 적용되어, 별도의 작업 없이도 최적화된 데이터 레이아웃과 효율적인 스토리지 등을 얻을 수 있게 될 것입니다. 데이터브릭스는 쿼리 성능과 효율성을 개선하기 위해 항상 새로운 기능을 추가하고 있으니, 앞으로 몇 달 내에 더 많은 소식을 기대해 주시기 바랍니다.

지금 시작하기

계정 콘솔의 설정 > 기능 사용 설정에서 예측 최적화 옆의 사용을 선택하여 지금 바로 시작하세요.

예측 최적화

클릭 한 번으로 예측 최적화의 인텔리전스 엔진이 데이터를 더 빠르고 비용 효율적으로 활용하기 시작합니다. 자세한 내용은 문서를 참조하세요.

 

(번역: Jinho Kim)  Original Post

Databricks 무료로 시작하기

관련 포스트

모든 플랫폼 블로그 포스트 보기