주요 컨텐츠로 이동

Lakehouse Monitoring 정식 출시: 인텔리전스를 통한 데이터 품질 프로파일링, 진단 및 강화

Jacqueline Li
케이시 울렌후스
폴 랩파스
Danny Chiao
이 포스트 공유하기

Data and AI Summit에서 우리는 데이터브릭스 Lakehouse Monitoring의 정식 출시를 발표했습니다. 데이터와 AI 모니터링에 대한 통합 접근 방식을 통해 데이터브릭스 데이터 인텔리전스 플랫폼에서 직접 손쉽게 품질을 프로파일링, 진단, 강화할 수 있습니다. Unity Catalog를 기반으로 직접 구축된 Lakehouse Monitoring(AWS | Azure)은 추가 도구나 복잡성이 필요하지 않습니다. 다운스트림 프로세스가 영향을 받기 전에 품질 문제를 발견함으로써 조직은 액세스를 민주화하고 데이터에 대한 신뢰를 회복할 수 있습니다. 

데이터와 모델 품질이 중요한 이유

오늘날의 데이터 중심 세상에서 고품질 데이터와 모델은 신뢰를 구축하고, 자율성을 확보하며, 비즈니스 성공을 추진하는 데 필수적입니다. 하지만 품질 문제는 너무 늦을 때까지 눈에 띄지 않는 경우가 많습니다

이 시나리오가 익숙하게 들리시나요? 데이터 분석가가 다운스트림 데이터가 손상되었다고 알려오기 전까지는 파이프라인이 원활하게 실행되고 있는 것처럼 보입니다. 또는 머신 러닝의 경우, 프로덕션 환경에서 성능 문제가 눈에 띄게 드러날 때까지 모델에 재학습이 필요하다는 사실을 깨닫지 못합니다. 이제 당신의 팀은 몇 주 동안 디버깅하고 변경 사항을 롤백해야 하는 상황에 직면하게 됩니다! 이러한 운영 오버헤드는 핵심 비즈니스 요구 사항의 전달 속도를 늦출 뿐만 아니라 잘못된 데이터에 근거해 중요한 결정을 내릴 수 있다는 우려를 불러일으킵니다. 이러한 문제를 방지하기 위해 조직에는 품질 모니터링 솔루션이 필요합니다.

Lakehouse Monitoring을 사용하면 데이터와 AI 전반의 품질 관리를 쉽게 시작하고 확장할 수 있습니다. Lakehouse Monitoring은 Unity Catalog를 기반으로 제작되어 팀에서 여러 툴을 통합하는 번거로움 없이 거버넌스와 함께 품질을 추적할 수 있습니다. 데이터브릭스 데이터 인텔리전스 플랫폼에서 품질 관리를 직접 수행함으로써 조직이 달성할 수 있는 것들은 다음과 같습니다:

Values of Data Quality

Lakehouse Monitoring으로 데이터와 AI의 신뢰성을 개선하는 동시에 조직의 신뢰, 자율성, 비즈니스 가치를 구축하는 방법을 알아보세요.

자동화된 프로파일링으로 인사이트 확보 

Lakehouse Monitoring은 Unity Catalog의 모든 델타 테이블(AWS | Azure)에 대해 자동화된 프로파일링을 기본으로 제공합니다. 계정에서 프로필 지표와 드리프트 지표에 대한 두 개의 지표 테이블(AWS | Azure)을 생성합니다. 모델 입력과 출력을 나타내는 추론 테이블(AWS | Azure)의 경우 모델 성능 및 드리프트 메트릭도 제공됩니다. 테이블 중심 솔루션인 Lakehouse Monitoring은 전체 데이터와 AI 자산의 품질을 간단하고 확장 가능하게 모니터링할 수 있게 해줍니다

Lakehouse Monitoring은 계산된 메트릭을 활용하여 시간 경과에 따른 추세와 이상치를 시각화한 대시보드를 자동으로 생성합니다. 건수, null 비율, 수치 분포 변화, 범주 분포 변화와 같은 주요 메트릭을 시각화함으로써 Lakehouse Monitoring은 인사이트를 제공하고 문제 있는 컬럼을 식별합니다. ML 모델을 모니터링하는 경우에는 정확도, F1 점수, 정밀도, 재현율과 같은 메트릭을 추적하여 모델 재학습이 필요한 시점을 파악할 수 있습니다. Lakehouse Monitoring을 통해 품질 문제를 손쉽게 발견하여 데이터와 모델의 신뢰성과 효율성을 유지할 수 있습니다.

“Lakehouse Monitoring은 판도를 바꾸어 놓았습니다. 플랫폼에서 직접 데이터 품질 문제를 해결할 수 있도록 도와줍니다... 시스템의 심장 박동과도 같은 것이죠. 우리 데이터 과학자들은 마침내 여러 단계를 거치지 않고도 데이터 품질을 이해할 수 있게 되어 매우 기뻐하고 있습니다.”    – Yannis Katsanos, 데이터 과학, 운영 및 혁신 부문 이사, Ecolab
Dashboard

Lakehouse Monitoring은 비즈니스 요구에 맞게 완벽하게 맞춤 설정이 가능합니다. 다음은 사용 사례에 맞게 추가로 조정하는 방법입니다:

  • 사용자 지정 메트릭 (AWS | Azure): 기본 제공 메트릭 외에도 SQL 표현식을 작성하여 사용자 지정 메트릭을 모니터 새로 고침으로 계산할 수 있습니다. 모든 메트릭은 Delta 테이블에 저장되므로 계정의 다른 테이블과 메트릭을 쉽게 쿼리하고 조인하여 더 심층적인 분석을 할 수 있습니다.  
  • 슬라이싱 표현식 (AWS | Azure): 슬라이싱 표현식을 설정하여 테이블 전체뿐만 아니라 테이블의 하위 집합을 모니터링할 수 있습니다. 열을 슬라이싱하여 특정 카테고리별로 그룹화된 메트릭(예: 제품 라인별로 그룹화된 매출, 인종 또는 성별에 따라 슬라이싱된 공정성 및 편향성 메트릭 등)을 볼 수 있습니다.
  • 대시보드 편집 (AWS | Azure): 자동 생성된 대시보드는 Lakeview 대시보드(AWS | Azure)로 구축되었으므로 사용자 지정 시각화나 작업 공간, 팀 및 이해관계자 간의 협업을 포함한 모든 Lakeview 기능을 활용할 수 있습니다. 

다음으로, Lakehouse Monitoring은 데이터와 모델의 품질을 더욱 보장하기 위해 사후 대응 프로세스에서 사전 경고 방식으로 전환합니다. 새로운 Expectations 기능을 통해 품질 문제가 발생할 때 즉시 알림을 받을 수 있습니다.

Expectations 로 품질 문제를 사전에 감지 

Databricks는 품질 관리를 데이터 실행에 더 가깝게 통합하여, 파이프라인 내에서 문제를 직접 감지하고 예방하며 해결할 수 있도록 합니다.

이제 구체화된 뷰와 스트리밍 테이블에 데이터 품질 Expectations(AWS | Azure)를 설정하여 null 레코드 제거와 같은 행 수준의 제약 조건을 적용할 수 있습니다. Expectations를 통해 문제가 발생하기 전에 이를 미리 파악하여, 다운스트림 소비자에게 영향을 미치기 전에 조치를 취할 수 있습니다. 우리는 Databricks에서 모든 테이블에 품질 규칙을 설정할 수 있도록 Expectations 기능을 통합할 계획입니다. 여기에는 델타 테이블(AWS | Azure), 스트리밍 테이블(AWS | Azure), 구체화되 뷰(AWS | Azure).가 포함되며, 이를 통해 중복 데이터, 높은 null 값 비율, 데이터의 분포 변화와 같은 일반적인 문제를 방지하고, 모델의 재학습 필요성을 파악할 수 있습니다.

델타 테이블에 expectations를 확장하기 위해 앞으로 몇 달 내에 다음과 같은 기능을 추가할 예정입니다:

  • 비공개 미리 보기* Expectations 집계: 기본 키, 외래 키 및 percent_null 또는 count 등 집계 제약 조건에 대한 expections를 정의합니다. 
  • 알림: 품질 위반 시 알림을 받거나 작업을 실패로 처리하여 품질 문제를 적극적으로 해결합니다. 
  • 관찰 가능성: 녹색/빨간색 상태 표시기를 Unity Catalog에 통합하여 데이터가 품질 기대치를 충족하는지 여부를 알려줍니다. 이를 통해 누구나 스키마 페이지를 방문하여 데이터 품질을 쉽게 평가할 수 있습니다. 주의가 필요한 테이블을 빠르게 식별하여 이해관계자가 데이터를 안전하게 사용할 수 있는지 판단할 수 있습니다.
  • 지능형 예측: expectations애 대한 권장 임계값을 받아 불필요한 알림을 최소화하고 불확실성을 줄일 수 있습니다.
screenshot

링크를 따라 프리뷰에 참여하여 앞으로 출시될 기능을 놓치지 마세요.

Lakehouse Monitoring 시작하기

Lakehouse Monitoring을 시작하려면 Unity Catalog에서 테이블의 품질 탭으로 이동하여 '시작하기'를 클릭하기만 하면 됩니다. 3가지 프로필 유형(AWS | Azure) 중에서 선택할 수 있습니다: 

  1. 시계열: 품질 지표는 시간 윈도우에 따라 집계되므로 일, 시간, 주 등으로 그룹화된 지표를 얻을 수 있습니다. 
  2. 스냅샷: 품질 메트릭은 전체 테이블에 대해 계산됩니다. 즉, 메트릭이 새로 고쳐질 때마다 전체 테이블에 대해 다시 계산됩니다. 
  3. 추론: 데이터 품질 메트릭 외에도 모델 성능 및 드리프트 메트릭이 계산됩니다. 이러한 메트릭을 시간 경과에 따라 또는 선택적으로 기준 또는 기준값 레이블과 비교할 수 있습니다. 

💡모범 사례 팁: 대규모로 모니터링하려면 테이블에서 변경 데이터 피드(CDF)(AWS | Azure)를 활성화하는 것이 좋습니다. 이렇게 하면 테이블을 새로 고칠 때마다 전체 테이블을 다시 처리하는 대신 테이블에 새로 추가된 데이터만 처리하는 증분 처리가 가능합니다. 따라서 실행이 더 효율적이고 여러 테이블에 걸쳐 모니터링을 확장할 때 비용을 절감하는 데 도움이 됩니다. 스냅샷은 모니터를 새로 고칠 때마다 테이블을 완전히 스캔해야 하므로, 이 기능은 시계열 또는 추론 프로필에만 사용할 수 있습니다. 

자세한 내용을 알아보거나 Lakehouse Monitoring을 직접 사용해 보려면 아래 제품 링크를 확인하세요.

데이터 품질을 모니터링하고 강화하며 이를 모든 사용자에게 제공함으로써, 우리는 팀들이 데이터에 대한 신뢰를 구축하고 자율성을 확보할 수 있도록 지원하고 있습니다. 동일한 신뢰성을 당신의 조직에도 적용하려면, 오늘 바로 데이터브릭스 Lakehouse Monitoring (AWS | Azure)을 시작해 보세요.

 

(번역: Youngkyong Ko)  Original Post

Databricks 무료로 시작하기

관련 포스트

모든 Security and Trust 포스트 보기