주요 컨텐츠로 이동

Databricks SQL의 새로운 기능, 2025년 2월

Databricks SQL을 더 간단하고 빠르며 비용 효율적으로 만들기 위한 새로운 기능과 성능 향상

What's new with Databricks SQL, February 2025

Published: February 21, 2025

제품2분 소요

Summary

  • AI 기반의 Databricks SQL로의 마이그레이션은 이제 Oracle, SQL Server, Snowflake, Redshift 등에 대해 접근 가능합니다.
  • 지난 5개월 동안만 해도, BI 작업 부하는 14% 더 빠르고, ETL 작업은 9% 더 빠르며, 탐색 작업 부하는 13% 개선되었습니다.
  • Databricks는 4년 연속으로 2024 Gartner® Magic Quadrant™ for Cloud Database Management Systems에서 리더로 선정되었습니다.

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

Databricks SQL 은 새로운 기능과 성능 향상을 통해 더욱 간단하고 빠르며 비용 효율적으로 발전하고 있습니다. Databricks 데이터 인텔리전스 플랫폼 내의 레이크하우스 아키텍처 를 기반으로, 11,000명 이상의 고객이 데이터 작업을 위해 이를 신뢰하고 있습니다.

이 블로그에서는 지난 세 달 동안의 주요 업데이트를 다루겠습니다. 이에는 2024 Gartner® Magic Quadrant™ for Cloud Database Management Systems에서의 우리의 인정, AI/BI, 지능형 경험, 관리 등의 향상이 포함됩니다.

BladeBridge를 사용한 가속화된 데이터 마이그레이션

Databricks는 기업용 데이터 웨어하우스를 위한 AI 기반 마이그레이션 솔루션의 검증된 제공업체인 BladeBridge를 환영합니다. 함께하면, Databricks와 BladeBridge는 기업이 Oracle, SQL Server, Snowflake, Redshift와 같은 레거시 데이터 웨어하우스를 Databricks SQL (DBSQL), Databricks의 카테고리를 정의하는 레이크하우스에 기반을 둔 데이터 웨어하우스로 마이그레이션하는 데 필요한 작업을 가속화하는 데 도움이 될 것입니다. BladeBridge는 고객에게 변환 범위에 대한 명확한 통찰력, 구성 가능한 코드 변환, LLM 기반 변환, 그리고 마이그레이션된 시스템의 쉬운 검증을 제공할 것입니다.

BladeBridge는 Teradata, Oracle, Snowflake, SQL Server, Amazon Redshift, Azure Synapse Analytics, Hive 등 20개 이상의 레거시 데이터 웨어하우스와 ETL 도구를 전통적인 방법보다 50% 더 빠르게 마이그레이션하는 AI 강화 접근법을 제공합니다. 자세한 내용을 알아보려면 공지 블로그를 읽어보세요.

마이그레이션을 위한 소스 시스템

지능형 경험

우리는 SQL 분석가 경험을 더 직관적이고 효율적이며 흥미롭게 만드는 데 집중하고 있습니다. 제품 전반에 AI를 내장함으로써 반복적인 작업에 덜 시간을 할애하고 고가치 작업에 더 많은 시간을 할애할 수 있습니다.

AI/BI

2024년 가을 AI/BI 출시 이후로, 우리는 Genie와 대시보드에 새로운 기능을 추가하였고, 더 많은 기능이 추가될 예정입니다. 최근 대시보드 업데이트에는 다음과 같은 것들이 포함되어 있습니다:

  • 차트 생성을 위한 개선된 AI 지원
  • 페이지 간 위젯 복사-붙여넣기 지원
  • 더 나은 데이터 탐색을 위한 업그레이드된 피벗 테이블과 포인트 맵

Genie에 대해 우리는 향상시켰습니다:

  • 더 정확한 평가를 위한 질문 벤치마킹
  • 편집 가능하고 크기 조절 가능한 시각화로 유연한 보고 가능
  • 답변 품질, 결과 순위 지정 및 날짜 및 시간 관련 쿼리 관리 방식의 개선을 통해

새로운 AI/BI 업데이트에 대해 더 깊이 알아보세요.

SQL 편집기

우리는 계속해서 SQL 작성 경험을 개선하여 효율적으로 작업할 수 있도록 돕고 있습니다. 지난 분기 가장 큰 업데이트 중 하나는 쿼리를 위한 Git 지원이었는데, 이로 인해 SQL을 버전 관리하고 CI/CD 파이프라인과 통합하는 것이 더 쉬워졌습니다.

*새로운 SQL 편집기가 활성화되면 쿼리에 대한 Git 지원이 가능합니다.

또한, 작업 흐름을 간소화하기 위한 새로운 기능들을 추가했습니다:

  • 다중 결과 문장: 다른 SQL 문장들로부터의 출력을 보고 비교하세요.
  • 전체 결과 테이블 필터링: 브라우저에 로드된 부분이 아닌 전체 데이터셋에 필터를 적용하세요.
  • 더 빠른 탭 전환: 로드된 탭은 최대 80%, 로드되지 않은 탭은 62% 더 빠르게 전환되어, 탐색이 더욱 원활해집니다.
  • 조절 가능한 글꼴 크기: 키보드 단축키 (Windows/Linux에서 Alt + / Alt-, macOS에서 Opt + / Opt-)를 사용하여 SQL 편집기의 글꼴 크기를 빠르게 변경할 수 있습니다.
  • @mentions와 함께 개선된 댓글: “@” 뒤에 사용자 이름을 입력하여 팀원을 직접 언급하며 실시간으로 협업하세요. 이메일 알림을 받게 되어 모든 사람이 정보를 공유하게 됩니다.

플랫폼의 예측 최적화

예측 최적화는 AI를 사용하여 모든 작업 부하의 성능을 자동으로 관리합니다. 이 영역에서는 플랫폼 전반에 걸친 수동 튜닝의 필요성을 제거하기 위해 지속적으로 기능을 개선하고 추가하고 있습니다.

통계를 위한 예측 최적화

데이터 레이크하우스 는 두 가지 유형의 통계를 활용합니다: 데이터 스킵 통계 (또는 델타 통계)와 쿼리 최적화 통계. 데이터 스킵 통계는 자동으로 수집되지만, 데이터가 증가하고 사용이 다양해짐에 따라 ANALYZE 명령을 언제 실행할지 결정하는 것이 복잡해집니다. 또한 쿼리 최적화 통계를 적극적으로 유지해야 합니다.

통계를 위한 예측 최적화의 게이트가 있는 Public Preview를 소개하게 되어 기쁩니다. 예측 최적화 는 이제 최적화 과정을 간소화하는 AI 기반 접근법으로 일반적으로 사용할 수 있습니다. 이 기능은 현재 필수 데이터 레이아웃 및 정리 작업을 지원하며, 사용자로부터의 초기 피드백은 일상적인 데이터 유지 관리를 단순화하는 데 효과적임을 강조합니다. 자동 통계 관리의 추가로, 예측 최적화는 다음과 같은 발전을 통해 가치를 제공하고 작업을 단순화합니다:

  • 데이터 스킵 통계의 지능적 선택, 열 순서 관리의 필요성 제거
  • 데이터 로딩 후 ANALYZE를 실행할 필요를 없애는 쿼리 최적화 통계의 자동 수집
  • 한번 수집되면, 통계는 쿼리 실행 전략을 알려주고, 평균적으로 성능을 향상시키고 비용을 줄입니다

최신 통계를 활용하면 성능과 총 소유 비용(TCO)이 크게 향상됩니다. 통계를 사용한 쿼리 실행과 사용하지 않은 쿼리 실행의 비교 분석에서 관찰된 작업 부하에 대해 평균 22%의 성능 향상이 확인되었습니다. Databricks는 이러한 통계를 활용하여 데이터 스캔 프로세스를 개선하고 가장 효율적인 쿼리 실행 계획을 선택합니다. 이 접근 방식은 데이터 인텔리전스 플랫폼 이 사용자에게 구체적인 가치를 제공하는 능력을 보여줍니다.

더 자세히 알아보려면 이 블로그를 읽어보세요.

세계 최고 수준의 가격 대비 성능

쿼리 엔진은 계속해서 데이터 볼륨에 거의 선형적으로 컴퓨팅 비용을 확장하도록 최적화되고 있습니다. 우리의 목표는 점점 증가하는 동시성의 세계에서 점점 감소하는 지연 시간으로 더 나은 성능을 달성하는 것입니다.

전반적인 성능 향상

Databricks SQL은 2022년 출시 이후 놀라운 77%의 성능 향상을 보여주었으며, 더 빠른 BI 쿼리, 더 빠른 대시보드, 더 빠른 데이터 탐색을 제공합니다. 단지 지난 5개월 동안에만, BI 작업 부하는 14% 빨라졌고, ETL 작업은 9% 빨라졌으며, 탐색 작업 부하는 13% 향상되었습니다. 그 위에, 우리는 개선된 동시성 기능과 고급 압축을 Private Preview에 출시하여, 시간과 비용 모두를 절약할 수 있도록 했습니다.

Databricks, 2021 Gartner® Magic Quadrant 클라우드 데이터베이스 관리 시스템 부문 리더로 선정

네 번째 연속으로, Databricks는 2024 Gartner® Magic Quadrant™ for Cloud Database Management Systems에서 리더로 선정되었습니다. 올해에는 실행 능력과 비전의 완성도 모두에서 성과를 거두었습니다. 이 평가는 AWS, Google Cloud, Azure를 통한 Databricks Data Intelligence Platform과 다른 19개의 공급업체를 포함하여 진행되었습니다.

블로그에서 더 많은 세부 정보를 읽어보세요.

관리 및 관리

우리는 워크스페이스 관리자가 시스템 테이블과 웨어하우스 성능 문제를 해결하기 위한 새로운 차트를 포함하여 SQL 웨어하우스를 구성하고 관리하는 능력을 확장하고 있습니다.

비용 관리

당신의 조직이 Databricks를 어떻게 사용하고 있는지 확인할 수 있도록, 시스템 테이블의 청구 및 비용 데이터를 사용할 수 있습니다. 그것을 더 쉽게 만들기 위해, 우리는 이제 사전 구축된 AI/BI 비용 대시보드를 가지고 있습니다. 대시보드는 태깅에 대한 모범 사례를 사용하여 소비 데이터를 구성하고, 조직, 사업 단위 또는 프로젝트 수준에서 지출을 관리하기 위한 예산을 만드는 데 도움을 줍니다. 그런 다음 예산을 초과할 때 예산 알림을 설정하고 (그리고 어떤 프로젝트 / 작업 부하 / 사용자가 초과 지출했는지 추적할 수 있습니다).

자세한 정보는 이 비용 관리 블로그를 확인해보세요.

시스템 테이블

우리는 시스템 테이블 을 통해 Databricks 계정에 대한 핵심적인 세부사항, 비용 정보, 데이터 접근, 작업 성능 등을 확인하는 것을 추천합니다. 구체적으로, 이들은 일반적으로 낮은 대기 시간으로 다양한 표면에서 접근할 수 있는 Databricks 소유 테이블입니다.

웨어하우스

웨어하우스 시스템 테이블 (system.compute.warehouses 테이블)은 SQL 웨어하우스가 생성, 편집, 삭제될 때 기록합니다. 웨어하우스 이름, 유형, 크기, 채널, 태그, 자동 정지, 그리고 자동 스케일링 설정을 포함한 웨어하우스 설정의 변경 사항을 모니터링하기 위해 테이블을 사용할 수 있습니다. 각 행은 특정 시점의 SQL 웨어하우스 속성의 스냅샷입니다. 속성이 변경될 때마다 새로운 스냅샷이 생성됩니다. 자세한 내용은 웨어하우스 시스템 테이블 참조를 참조하세요. 이 기능은 Public Preview에 있습니다.

쿼리 기록

쿼리 히스토리 테이블 (system. query.history) 은 노트북작업을 사용하여 실행된 쿼리에 대한 기록을 포함하고 있습니다. 테이블은 동일한 지역에서 테이블에 액세스하는 모든 작업 공간의 계정 전체 레코드로 구성됩니다. 이 기능은 현재 공개 미리보기 상태입니다.

자세한 내용은 쿼리 히스토리 시스템 테이블 참조를 참조하십시오.

완료된 쿼리 수 차트로 웨어하우스 성능 문제 해결 도움

완료된 쿼리 수 차트(Public Preview)가 이제 SQL 웨어하우스 모니터링 UI에서 사용할 수 있습니다. 이 새로운 차트는 시간 창에서 완료된 쿼리 수를 보여줍니다. 이 차트는 피크 실행 쿼리 및 실행 클러스터 차트와 함께 사용하여 워크로드 트래픽 및 웨어하우스 설정에 따라 클러스터가 회전하거나 다운되는 경우 웨어하우스 처리량의 변화를 시각화할 수 있습니다. 자세한 정보는 SQL 웨어하우스 모니터링을 참조하세요.

Databricks SQL Serverless의 확장된 지역 및 준수 가능성 사용 가능성

Databricks SQL Serverless 창고에 대한 가용성과 준수가 확장되었습니다.

  • 새로운 서버리스 지역:
    • GCP 는 이제 기존 7개 지역에서 일반적으로 사용할 수 있습니다.
    • AWS 는 런던을 위한 eu-west-2 지역을 추가합니다.
    • Azure 에 프랑스 중앙, 스웨덴 중앙, 독일 서부 중앙, UAE 북부의 네 개 지역이 추가되었습니다.
  • 지역별 서버리스 컴플라이언스
    • HIPAA: HIPAA 준수는 모든 클라우드 제공자(Azure, AWS, GCP)에서 서버리스 SQL이 사용 가능한 모든 지역에서 가능합니다.
    • AWS US-East-1: PCI-DSS, FedRamp Mod 준수가 이제 GA입니다.
    • AWS AP-Southeast-2: PCI-DSS 및 IRAP 준수가 이제 GA입니다.
  • 서버리스 보안
    • Private Link: Private link 는 사용자의 데이터와 다시 사용자로의 사설 네트워크를 사용하는 데 도움이 됩니다. 이제 일반적으로 사용할 수 있습니다.
    • Secure Egress는 안전하게 아웃바운드 데이터 액세스를 제어하여 보안 및 준수를 보장합니다. 출구 제어 설정 이 이제 공개 미리보기에서 사용 가능합니다.

데이터 인텔리전스 플랫폼과의 통합

이러한 기능들은 Databricks 데이터 인텔리전스 플랫폼의 Databricks SQL 부분입니다. Databricks SQL은 플랫폼의 간단함, 통합된 거버넌스, 그리고 레이크하우스 아키텍처의 개방성 능력을 활용합니다. 다음은 Databricks SQL에 유익한 새로운 플랫폼 기능들입니다.

SQL 언어 개선: Collations

글로벌 기업 애플리케이션을 구축하는 것은 다양한 언어를 처리하고 일관성 없는 데이터 입력을 처리하는 것을 의미합니다. Collations은 언어와 대소문자 민감성을 고려하여 텍스트를 정렬하고 비교하는 규칙을 정의함으로써 데이터 처리를 간소화합니다. Collations은 데이터베이스를 언어와 맥락에 대한 인식이 있는 상태로 만들어, 사용자가 예상하는 대로 텍스트를 처리하도록 합니다.

이제 Databricks SQL에서 공개 미리보기로 collations을 사용할 수 있다는 사실에 우리는 기쁩니다. 자세한 내용은 collations 블로그 를 참조하세요.

물리화 뷰와 스트리밍 테이블

머티리얼라이즈드 뷰 (MVs)와 스트리밍 테이블 (STs)은 이제 Databricks SQL에서 AWS, Azure, GCP에서 일반적으로 사용 가능 합니다. 스트리밍 테이블은 클라우드 스토리지와 메시지 버스와 같은 소스에서 간단하게, 증분적으로 데이터를 가져올 수 있습니다. 머티리얼라이즈드 뷰는 대시보드와 쿼리가 이전보다 훨씬 빠르게 실행될 수 있도록 쿼리 결과를 사전 계산하고 증분적으로 업데이트합니다. 함께 사용하면, SQL을 사용하여 효율적이고 확장 가능한 데이터 파이프라인을 생성할 수 있습니다.

자세한 내용은 MV와 ST 공지 블로그를 읽어보세요.

Databricks SQL 스트리밍 테이블 및 머티리얼라이즈드 뷰의 스케줄링이 더욱 쉬워졌습니다.

DDL을 사용하여 MV와 ST 새로 고침을 스케줄링하기 위한 EVERY 구문을 도입했습니다. EVERY는 복잡한 CRON 표현식을 작성할 필요 없이 시간 기반 스케줄링을 단순화합니다. 더 많은 유연성이 필요한 사용자들을 위해, CRON 스케줄링은 계속 지원될 것입니다.

자세한 내용은 ALTER MATERIALIZED VIEW, ALTER STREAMING TABLE, CREATE MATERIALIZED VIEW, 그리고 CREATE STREAMING TABLE에 대한 문서를 참조하세요.

스트리밍 테이블은 시간 여행 쿼리를 지원합니다

이제 시간 여행을 사용하여 타임스탬프 또는 테이블 버전(트랜잭션 로그에 기록된 대로)에 기반한 이전 스트리밍 테이블 버전을 쿼리할 수 있습니다. 시간 여행 쿼리를 사용하기 전에 스트리밍 테이블을 새로 고칠 필요가 있을 수 있습니다.

시간 여행 쿼리는 머티리얼라이즈드 뷰에서 지원되지 않습니다.

Delta Live Tables에 대한 쿼리 이력 지원

쿼리 히스토리쿼리 프로필 은 이제 DLT 파이프라인을 통해 실행된 쿼리를 포함합니다. 또한, Databricks SQL 머티리얼라이즈드 뷰(MVs) 및 스트리밍 테이블(STs)에 대한 쿼리 인사이트가 개선되었습니다. 이러한 쿼리는 SQL 웨어하우스 및 서버리스 컴퓨트에서 실행된 쿼리와 함께 쿼리 히스토리 페이지에서 접근할 수 있습니다. 또한 파이프라인 UI, 노트북, SQL 편집기의 컨텍스트에서 나열됩니다.

이 기능은 Public Preview에서 사용 가능합니다. 자세한 내용은 Delta Live Table 파이프라인에 대한 쿼리 이력 접근을 참조하세요.

Azure Databricks를 위한 크로스 플랫폼 뷰 공유

Databricks 수신자는 이제 Databricks 컴퓨팅 리소스를 사용하여 공유 뷰를 쿼리할 수 있습니다. 이전에는 수신자의 Azure Databricks 계정이 제공자와 다른 경우, 수신자는 서버리스 SQL 웨어하우스를 사용하여 공유 뷰를 쿼리할 수 있었습니다. 공유 뷰 읽기를 참조하세요.

뷰 공유는 이제 오픈 공유 커넥터에도 확장되었습니다. Delta Sharing open sharing을 사용하여 공유된 데이터 읽기 (수신자용)를 참조하세요.

이 기능은 현재 공개 미리보기 상태입니다.

새로운 혁신에 대한 자세한 내용

Databricks SQL의 이런 혁신을 즐기시길 바랍니다. 항상 이 새로운 게시물을 확인하여 지난 세 달 동안의 내용을 확인할 수 있습니다. 아래는 지난 분기 동안 블로그에 게시한 출시의 전체 목록입니다:

항상 그래왔듯이, 우리는 당신에게 더 많은 멋진 기능을 제공하기 위해 계속 노력하고 있습니다. 데이터 웨어하우싱 및 AI/BI에 대한 향후 계획을 알아보려면 분기별 로드맵 웹세미나 를 계속 주시하십시오. 데이터와 함께 일하는 것은 흥미로운 시기이며, 데이터 아키텍트, 분석가, BI 분석가 등과 함께 파트너십을 맺어 조직 내에서 데이터와 AI를 민주화하는 데 기대하고 있습니다!

다음은 무엇인가요?

우리가 작업 중인 기능들에 대한 짧은 미리보기입니다. 아직 이들 중 어느 것도 확정된 시간표가 없으므로 묻지 마세요. :-)

쉽게 데이터 웨어하우스를 Databricks SQL로 이전하세요

모든 규모의 고객들은 데이터 인프라를 독점적이고 비싼, 그리고 고립된 플랫폼에서 현대화함으로써 비용을 크게 줄이고 위험을 낮출 수 있습니다. 이러한 플랫폼들은 데이터 웨어하우징의 역사를 정의해 왔습니다. 우리는 현재의 웨어하우스에서 Databricks SQL로 마이그레이션하는 데 필요한 것을 분석하는 데 도움이 될 무료 도구를 확장하는 작업을 진행하고 있습니다. 또한 새로운 Databricks SQL 기능을 활용하도록 코드를 변환하는 데 도움이 됩니다.

BI 작업 부하를 초강력으로 만드세요

비즈니스 인텔리전스 대시보드를 로드할 때 성능은 중요합니다. 우리는 BI 쿼리의 지연 시간을 매 분기마다 개선하여 Power BI, Tableau, Looker 및 Sigma와 같은 좋아하는 BI 도구를 Databricks SQL로 강화할 수 있습니다.

웨어하우스의 관리 및 모니터링을 단순화하세요.

우리는 웨어하우스를 쉽게 관리하고 모니터링할 수 있도록 도와주는 더 많은 기능과 도구에 투자하고 있습니다. 이에는 시스템 테이블 개선, UI를 통한 변경, 그리고 우리의 API가 포함됩니다.

Databricks SQL에 대해 더 알아보려면 웹사이트 를 방문하거나 문서를 읽어보세요. Databricks SQL 제품 투어도 확인해보세요. 가정하면, 기존의 웨어하우스를 뛰어난 성능의 서버리스 데이터 웨어하우스로 이전하고자 하며, 훌륭한 사용자 경험과 더 낮은 총 비용을 원한다면, 그런 경우 Databricks SQL이 해결책입니다 - 무료로 시도해보세요.

비공개 또는 게이트가 설치된 공개 미리보기에 참여하려면 Databricks 계정 팀에 문의하십시오.

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요