주요 컨텐츠로 이동

데이터 분석가를 위한 Databricks Assistant 팁과 트릭

Databricks Assistant Tips and Tricks for Data Analysts

Published: April 15, 2025

일체 포함1분 이내 소요

작성자: Samantha Banchik

Summary

  • Databricks Assistant는 데이터 분석가에게 SQL 쿼리, 코드 설명, 오류 수정을 도와줍니다.
  • Databricks Assistant는 SQL 방언 변환, 쿼리 리팩토링, 윈도우 함수 작성, JSON을 구조화된 테이블로 변환, SQL 쿼리 최적화 등 일반적인 데이터 분석가의 과제를 해결할 수 있습니다.
  • 이 게시물은 테이블 이름을 @로 언급하는 것, Unity Catalog 주석에 행 수준 예제를 추가하는 것, 빠른 반복을 위해 Cmd+I를 사용하는 것과 같은 모범 사례를 제공합니다.

Databricks Assistant 는 Databricks Data Intelligence Platform에 기본적으로 탑재된 컨텍스트 인식 AI 보조 도구입니다. 이것은 SQL 쿼리를 생성하고, 복잡한 코드를 설명하고, 자동으로 오류를 수정하는 데 도움을 주어 SQL 및 데이터 분석을 단순화하도록 설계되었습니다.

이 블로그에서는 Databricks Assistant 팁 & 트릭 for 데이터 엔지니어에 이어 SQL과 데이터 분석가에 초점을 맞춥니다. Assistant가 어떻게 모범 사례를 강화하고 성능을 향상시키며 반정형 데이터를 사용 가능한 형식으로 변환하는지 살펴봅니다. 데이터 과학자 등에 대한 미래의 게시물을 기대해 주세요. Databricks Assistant가 복잡한 워크플로우를 단순화하고 고급 분석을 모두에게 접근 가능하게 함으로써 데이터를 민주화하는 방법을 탐구합니다.

모범 사례

다음은 분석가들이 보조 도구를 더 효과적으로 사용하는 데 도움이 되는 몇 가지 모범 사례입니다. 이를 통해 더 정확한 응답, 원활한 반복, 향상된 효율성을 보장할 수 있습니다.

  • @ mention 테이블 이름 사용하기: 프롬프트에서 가능한 한 구체적으로 표현하고 @ mention 테이블을 사용하여 어시스턴트가 올바른 카탈로그와 스키마를 참조하도록 하십시오. 이는 특히 여러 스키마나 유사한 이름의 테이블을 포함하는 카탈로그가 있는 작업 공간에서 유용합니다.
  • UC 댓글에 행 수준 예제 추가: 현재로서는, 보조 도구는 메타데이터에만 접근할 수 있으며 실제 행 수준 값에는 접근할 수 없습니다. Unity Catalog 댓글에 대표적인 행 수준 예제를 포함시킴으로써, 분석가들은 보조 도구에 추가적인 컨텍스트를 제공할 수 있으며, 이는 정규 표현식 패턴 생성이나 JSON 구조 파싱과 같은 작업에 대한 더욱 정확한 제안을 이끌어냅니다.
  • 테이블 설명을 최신 상태로 유지하세요: Unity Catalog에서 테이블 설명을 정기적으로 개선하면 Assistant가 데이터 모델을 이해하는 데 도움이 됩니다.
  • 빠른 반복을 위해 Cmd+I 사용: 인라인 보조 도구는 불필요한 재작성 없이 목표를 정확하게 조정하는 데 이상적입니다. 셀의 끝에서 Cmd + I를 누르면 어시스턴트는 커서 아래의 코드만 수정하게 됩니다, 달리 지정하지 않는 한. 이를 통해 사용자는 프롬프트를 빠르게 반복하고, 응답을 정제하고, 제안을 조정할 수 있으며, 그들의 코드의 나머지 부분을 방해하지 않습니다. 또한, 사용자는 특정 라인을 강조하여 어시스턴트의 초점을 미세 조정할 수 있습니다.
  • 고급 함수의 예제 얻기: 문서가 기본적인 사용 사례만 제공할 때, 보조 도구는 귀하의 특정 필요에 기반한 더 맞춤화된 예제를 제공할 수 있습니다. 예를 들어, DLT에서 배치 스트리밍 구조 집계를 사용하고 있다면, Assistant에게 데이터에 적용하는 방법, 매개변수 조정, 엣지 케이스 처리 등에 대한 보다 상세한 구현을 요청할 수 있습니다.

일반적인 사용 사례

이러한 모범 사례를 염두에 두고, SQL 및 데이터 분석가들이 매일 직면하는 특정한 도전들을 좀 더 자세히 살펴보겠습니다. 쿼리 최적화와 반정형 데이터 처리부터 SQL 명령어를 처음부터 생성하는 것까지, Databricks 어시스턴트는 SQL 워크플로우를 단순화하여 데이터 분석을 덜 복잡하고 더 효율적으로 만듭니다.

SQL 방언 변환

SQL 방언은 플랫폼 간에 다르며, 함수, 구문, 심지어 DDL 문과 윈도우 함수와 같은 핵심 개념에서도 차이가 있습니다. Hive에서 Databricks SQL로 이동하거나 Postgres, BigQuery, Unity Catalog 간에 쿼리를 번역하는 등 여러 환경에서 작업하는 분석가들은 종종 쿼리를 수동으로 적용하는 데 시간을 보냅니다.

예를 들어, 어시스턴트가 Hive DDL을 Databricks 호환 SQL로 생성하는 방법을 살펴봅시다. 원래의 쿼리는 SORTED_BY 가 DBSQL에 존재하지 않기 때문에 오류를 발생시킵니다. 여기에서 볼 수 있듯이, Assistant는 고장난 줄을 원활하게 교체하고 이를 USING DELTA, 로 교체하여 테이블이 최적화된 저장 및 인덱싱을 제공하는 Delta Lake로 생성되도록 합니다. 이를 통해 분석가들은 수동 시행착오 없이 Hive 쿼리를 마이그레이션 할 수 있습니다.

쿼리 리팩토링

긴, 중첩된 SQL 쿼리는 읽기, 디버그, 유지 관리하기 어렵습니다 - 특히 깊게 중첩된 서브쿼리나 복잡한 CASE WHEN 로직이 포함되어 있을 때입니다. 다행히 Databricks Assistant를 이용하면 분석가들이 이러한 쿼리를 CTE로 쉽게 리팩토링하여 가독성을 향상시킬 수 있습니다. Assistant가 깊게 중첩된 쿼리를 CTE를 사용하여 더 구조화된 형식으로 변환하는 예를 살펴보겠습니다.

SQL 윈도우 함수 작성

SQL 윈도우 함수는 전통적으로 순위 지정, 집계, 행 축소 없이 누적 합계를 계산하는 데 사용되지만, 올바르게 사용하는 것이 까다로울 수 있습니다. 분석가들은 종종 PARTITION BY와 ORDER BY 절, 적절한 순위 함수 (RANK, DENSE_RANK, ROW_NUMBER) 선택, 누적 평균 및 이동 평균 효율적 구현에 어려움을 겪습니다.

Databricks Assistant는 올바른 구문을 생성하고, 함수 동작을 설명하며, 성능 최적화를 제안함으로써 도움을 줍니다. Assistant가 윈도우 함수를 사용하여 7일간의 롤링 요금 합계를 계산하는 예를 살펴봅시다.

JSON을 구조화된 테이블로 변환하기

분석가들은 종종 JSON과 같은 반정형 데이터를 다루며, 이를 효율적인 쿼리를 위한 구조화된 테이블로 변환해야 합니다. 필드를 수동으로 추출하고, 스키마를 정의하고, 중첩된 JSON 객체를 처리하는 것은 시간이 많이 소요되고 오류가 발생하기 쉽습니다. Databricks 어시스턴트는 원시 데이터에 직접 접근할 수 없으므로, 테이블 설명이나 열 주석과 같은 Unity 카탈로그 메타데이터를 추가하면 제안의 정확성이 향상될 수 있습니다.

이 예에서는 장르 ID와 이름이 모두 포함된 JSON으로 저장된 장르 데이터가 포함된 열이 있습니다. Databricks 어시스턴트를 사용하면, 이 열을 빠르게 펼쳐 개별 필드를 별도의 열로 추출하여 분석을 더 쉽게 할 수 있습니다.

정확한 결과를 보장하기 위해, 먼저 Catalog Explorer에서 JSON 구조를 확인하고, Assistant가 열 주석에서 참조할 수 있는 샘플 형식을 제공해야 합니다. 이 추가 단계는 보조 도구가 더 맞춤화되고 정확한 응답을 생성하는 데 도움이 되었습니다.

이와 유사한 접근 방식은 정규 표현식 표현이나 복잡한 SQL 변환을 생성하려고 할 때 사용될 수 있습니다. 먼저 예상 입력 형식의 명확한 예를 제공함으로써—이는 샘플 JSON 구조, 텍스트 패턴, 또는 SQL 스키마일 수 있습니다—분석가들은 Assistant가 더 정확하고 관련성 있는 제안을 생성하도록 안내할 수 있습니다.

SQL 쿼리 최적화

지난해의 Databricks 어시스턴트 연간 리뷰 블로그에서는 /optimize의 도입을 강조했는데, 이는 누락된 파티션 필터, 고비용 조인, 중복 작업과 같은 비효율성을 식별하여 SQL 쿼리를 개선하는 데 도움이 됩니다. 쿼리를 실행하기 전에 미리 개선 사항을 제안함으로써, /optimize는 사용자가 불필요한 계산을 최소화하고 성능을 미리 향상시키도록 보장합니다.

이제, /analyze라는 기능을 추가로 확장하고 있습니다. 이 기능은 쿼리 실행 후 성능을 검사하고, 실행 통계를 분석하고, 병목 현상을 감지하며, 지능적인 추천을 제공합니다.

아래 예에서는 Assistant가 읽는 데이터의 양을 분석하고 성능을 향상시키기 위한 최적의 파티셔닝 전략을 제안합니다.

오늘 Databricks Assistant를 시도해 보세요!

오늘 Databricks Assistant를 사용하여 자연어로 작업을 설명하고, Assistant가 SQL 쿼리를 생성하고, 복잡한 코드를 설명하고, 자동으로 오류를 수정하도록 하세요.

또한, 데이터 클리닝, 필터링, 탐색을 간소화하는 방법을 보여주는 Databricks 노트북에서의 EDA에 대한 최신 튜토리얼 을 확인해 보세요.

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요

다음은 무엇인가요?