주요 컨텐츠로 이동

통계를 위한 예측 최적화 소개

이 포스트 공유하기

Summary

  • 예측 최적화의 제한된 공개 미리보기에서 지능적이고 자동화된 방식의 통계 수집을 제공합니다.
  • 수집된 통계는 쿼리 실행 전략에 반영되어 평균적으로 성능 향상과 비용 절감을 가져옵니다.

예측 최적화(Predictive Optimization)의 제한된 공개 미리보기(Gated Public Preview)를 소개하게 되어 기쁩니다. Data + AI Summit에서 발표된 이 예측 최적화 기능은 최적화 프로세스를 간소화하는 AI 기반 접근 방식으로, 이제 일반적으로 사용 가능합니다. 현재 이 기능은 데이터 레이아웃 및 정리 작업과 같은 주요 작업을 지원하며, 초기 사용자 피드백에 따르면 일상적인 데이터 유지보수를 크게 단순화하는 데 효과적이라는 평가를 받고 있습니다.

자동 통계 관리의 추가로, 예측 최적화는 고객 가치를 제공하고 운영을 간소화합니다. 주요 개선 사항은 다음과 같습니다:

  • 데이터 스키핑 통계(data-skipping statistics)를 지능적으로 선택하여, 컬럼 순서를 관리할 필요가 없어집니다.
  • 쿼리 최적화 통계(query optimization statistics)를 자동 수집하여, 데이터 로드 후 ANALYZE 명령을 실행할 필요가 없어집니다.
  • 수집된 통계는 쿼리 실행 전략에 반영되어, 평균적으로 성능 향상과 비용 절감을 가져옵니다.

통계의 효과 

최신 통계를 활용하면 성능과 총 소유 비용(TCO)을 크게 향상시킬 수 있습니다. 통계를 사용한 쿼리 실행과 사용하지 않은 경우를 비교 분석한 결과, 관찰된 작업 부하(workloads)에서 평균 22%의 성능 향상이 확인되었습니다. Databricks는 이러한 통계를 활용하여 데이터 스캔 프로세스를 최적화하고 가장 효율적인 쿼리 실행 계획을 선택합니다. 이러한 접근 방식은 Data Intelligence Platform이 사용자에게 실질적인 가치를 제공하는 능력을 보여주는 사례입니다.

통계를 통한 쿼리 시간 감소

 

통계가 쿼리 성능에 영향을 미치는 것은 당연한 일입니다. 통계는 쿼리 계획 최적화를 결정하는 데 사용되며, 실행 중에는 적응형 쿼리 실행(AQE)에 의해 보완됩니다. 제한된 공개 미리보기(Gated Public Preview)에 참여한 고객 사례에서는 최적화된 조인 전략이 적용된 쿼리 비율의 증가와 블룸 필터(bloom filter)의 활용 확대로 인해 다양한 성능 향상이 관찰되었습니다. 통계는 성능 개선을 경험할 수 있는 최고의 기회를 제공합니다.

 

현재의 도전 과제들

데이터 레이크하우스는 두 가지 유형의 통계를 활용합니다: 데이터 스키핑 통계(Delta 통계라고도 함)와 쿼리 최적화 통계입니다. Delta 통계는 파일 수준에서 작동하며 스캔 작업 중 데이터 건너뛰기를 가능하게 하고, 기본적으로 처음 32개의 컬럼에 대해 자동으로 생성됩니다. 반면, 쿼리 최적화 통계는 테이블 수준의 지표로, 쿼리 계획을 지원하며 ANALYZE 명령을 실행한 후에만 수집됩니다.

현재의 통계 수집 방식은 최적의 성능을 추구하면서 비용을 최소화하려는 데이터 엔지니어링 팀에 여러 과제를 제기합니다: 

  1. 넓고 중첩된 스키마(wide and nested schema)에 대한 데이터 스키핑 능력을 어떻게 향상시킬 수 있을까?
  2. 워크로드에서 변화하는 쿼리 패턴에 어떤 전략을 사용할 수 있을까?
  3. ANALYZE 명령을 통해 쿼리 최적화 통계를 업데이트하는 최적의 빈도는 무엇일까?

데이터 건너뛰기 통계는 자동으로 수집되지만, 데이터가 계속 증가하고 사용 방식이 다양해지면서 ANALYZE 명령을 실행할 시점을 결정하는 것은 복잡한 문제가 됩니다. 고객들은 쿼리 최적화 통계를 적극적으로 유지 관리해야 하는 운영 부담을 겪습니다. 게다가, 많은 고객이 ANALYZE 명령을 정기적으로 실행하지 않아 최적화되지 않은 쿼리 실행 계획을 사용하게 되는 경우가 많습니다.

 

통계를 위한 예측 최적화

예측 최적화가 활성화되면, 통계는 두 단계로 관리됩니다. 먼저, Photon이 활성화된 컴퓨팅(기본적으로 Databricks SQL 및 Serverless 제품에서 활성화됨)을 통해 처리된 모든 신규 데이터에 대해 통계를 수집합니다. 이는 데이터 수집 후 ANALYZE를 실행하는 기존 방식과 달리, 데이터에 한 번만 접근하므로 훨씬 효율적이고 비용 효율적인 통계 수집 방법입니다. 이후, UPDATE 및 DELETE 작업으로 인해 통계가 손상되면 예측 최적화는 백그라운드에서 ANALYZE 명령을 트리거하여 통계가 최신 상태와 신뢰성을 유지할 수 있도록 합니다.

스마트한 Delta 통계 수집

예측 최적화의 최신 개선 사항은 데이터 스키핑 통계 수집 과정을 크게 향상시켰습니다. 현재 Delta 통계를 수집하는 데는 두 가지 주요 방법이 있습니다: 기본적으로 첫 32개 컬럼에 의존하는 기존 접근 방식과 사용자가 컬럼을 수동으로 지정하는 옵션입니다.

이번 제한된 공개 미리보기에서는 Databricks가 이전의 32컬럼 제한을 더 이상 따르지 않습니다. 대신, 데이터 클러스터링과 사용 패턴을 분석하여 Delta 통계를 계산하는 데 가장 적합한 컬럼을 지능적으로 식별합니다.

한 가지 유의할 점으로, 고객이 Delta 통계 수집을 위해 수동으로 컬럼을 지정한 경우, 이번 업데이트에서 설정된 새로운 기본 기준보다  사용자 지정 설정이 우선 적용됩니다.

쿼리 최적화 통계의 기본 제공

Photon을 사용하면 이제 쿼리 최적화 통계가 쓰기 작업 중에 자동으로 수집됩니다. 이는 새로 생성된 테이블과 기존 통계가 있는 테이블 모두에서 데이터 삽입 후 더 이상 ANALYZE 명령을 실행할 필요가 없음을 의미합니다. 최신 통계는 데이터 로드가 완료되면 즉시 사용할 수 있습니다.

지능형 백필 (Intelligent Back-fill)

기존 테이블 중에는 쿼리 최적화 통계가 부족한 경우가 많습니다. 예측 최적화는 통계가 오래되었거나 없는 테이블을 식별하고, 업데이트를 수행할지 여부와 언제 수행할지를 결정합니다. 이 프로세스는 통계가 실질적인 가치를 제공하는 테이블에만 새로 고침이 이루어지도록 하여 성능 향상과 비용 효율성 간의 균형을 유지합니다.

통계를 위한 예측 최적화 작동 방식

예측 최적화는 레이크하우스 아키텍처의 성능과 효율성을 향상시킵니다. 프로세스는 간단합니다. 데이터 쓰기 작업 중 통계가 수집되므로 데이터 로드 후 ANALYZE를 실행할 필요가 없습니다. Delta 통계는 사용 요소(usage factor)을 기반으로 수집되며, 예측 최적화는 사용 패턴, 데이터 레이아웃, 통계의 최신 상태에 따라 최적화를 예약합니다. 이 모든 과정은 시스템 테이블을 통해 쉽게 모니터링하고 이해할 수 있습니다.

쓰기, 스케줄, 최적화, 관찰 과정

 

제한된 공개 미리보기(Gated Public Preview)에 신청하기

양식 을 사용하여 통계를 위한 예측 최적화 공개 미리보기에 등록하세요.

클라우드별로 예측 최적화를 지원하는 최신 지역에 대한 정보는 다음 문서를 참조하십시오: AWS | Azure | GCP

 

(번역: Youngkyong Ko)  Original Post

Databricks 무료로 시작하기

관련 포스트

Season's Speedings: Databricks SQL Delivers 4x Performance Boost Over Two Years

As the season of giving approaches, we at Databricks have been making our list and checking it twice--but instead of toys and treats...

What's new with Databricks SQL, October 2024

We are excited to share the latest features and performance improvements that make Databricks SQL simpler, faster, and more affordable than ever. Databricks...

예측 최적화 일반 제공 발표

Databricks의 예측 최적화 정식 출시를 발표하게 되어 기쁩니다. 이 기능은 쿼리 속도 향상과 스토리지 비용 절감을 위해 테이블 데이터 레이아웃을을 지능적으로 최적화합니다. 예측...
모든 플랫폼 블로그 포스트 보기