주요 컨텐츠로 이동

(번역: Youngkyong Ko) Original Post

데이터브릭스 Unity Catalog("UC")는 클라우드와 데이터 플랫폼에 걸쳐 기업의 모든 데이터와 AI 자산을 위한 단일 통합 거버넌스 솔루션을 제공합니다. 이 블로그에서는 이전 Unity Catalog 거버넌스 가치 레버 블로그를 자세히 살펴보고 이 기술 자체가 포괄적인 데이터 및 AI 모니터링, 리포팅, 리니지를 통해 구체적으로 어떻게 긍정적인 비즈니스 성과를 달성할 수 있는지 보여줍니다.

기존의 비통합 거버넌스의 전반적인 문제점

Unity Catalog 거버넌스 가치 레버 블로그에서는 정보 보안, 액세스 제어, 사용 모니터링, 가드레일 정책, 데이터 자산의 "진리의 단일 출처(single source of truth)"를 확보하기 위해 거버넌스가 조직적으로 중요한 이유에 대해 설명합니다. 회사의 성장과 함께 이러한 과제가 더욱 복잡해지고 있으며, 데이터브릭스 UC 없이는 기존의 거버넌스 솔루션으로는 요구 사항을 충족시키기 어려워지고 있습니다.

그리고 여러 공급업체에 걸쳐 관리되는 규정 준수 및 데이터 개인정보 보호 취약성, 통제되지 않고 사일로화된 데이터 및 AI 늪, 기하급수적으로 증가하는 비용, 기회, 수익, 협업의 손실 등이 주요 도전 과제로 논의되었습니다.

데이터브릭스 Unity Catalog가 통합된 뷰, 모니터링, 가시성을 지원하는 방법

그렇다면 이 모든 것이 기술적 관점에서 어떻게 작동할까요? UC는 데이터브릭스 데이터 인텔리전스 플랫폼에 등록된 모든 자산을 관리합니다. 이러한 자산은 BI, DW, 데이터 엔지니어링, 데이터 스트리밍, 데이터 과학, 머신 러닝 등 무엇이든 될 수 있습니다. 이 거버넌스 모델은 액세스 제어, 리니지, 검색, 모니터링, 감사, 공유 기능을 제공합니다. 또한 파일, 테이블, ML 모델, 노트북 및 대시보드의 메타데이터 관리 기능도 제공합니다. UC는 아래에서 설명하는 대로 데이터브릭스 자산 카탈로그, 피처 저장소(feature store) 및 모델 레지스트리, 리니지 기능, 데이터 분류를 위한 메타데이터 태깅을 통해 전체 엔드투엔드 정보를 한 번에 볼 수 있는 단일 뷰를 제공합니다:

전체 데이터 자산에 대한 통합 뷰

  • 자산 카탈로그(Asset catalog): 메타데이터가 포함된 시스템 테이블을 통해 스키마, 테이블, 열, 파일, 모델 등과 같이 카탈로그에 포함된 모든 것을 볼 수 있습니다. 데이터브릭 내의 볼륨은 테이블 형식이 아닌 데이터셋을 관리하는 데 사용됩니다. 기술적으로는 정형, 반정형, 비정형 등 모든 형식의 파일에 액세스할 수 있는 논리적 스토리지 볼륨입니다.
    Catalog Explorer lets you discover and govern all your data and ML models
    Catalog Explorer lets you discover and govern all your data and ML models
  • 피처 저장소(Feature Store) 및 모델 레지스트리(Model Registry): 중앙 저장소 내에서 데이터 과학자가 사용하는 기능을 정의합니다. 이는 전체 AI 워크플로우에 대한 일관된 모델 학습과 추론에 유용합니다.
  • 리니지(Lineage) 기능: 실제 업무에서 조치를 취하기 위해서는 데이터에 대한 신뢰가 필수입니다. 보고서, 모델 및 인사이트에 대한 신뢰를 위해 데이터에 대한 종단 간 투명성이 필요합니다. UC는 이를 리니지 기능을 통해 쉽게 제공하여 다음과 같은 통찰력을 제공합니다: 원시 데이터 소스는 무엇입니까? 누가 그것을 만들었고 언제 만들었습니까? 데이터가 어떻게 병합되고 변환되었습니까? 모델에서 데이터셋으로 거슬러 올라가는 추적 가능한 방법은 무엇입니까? 리니지는 테이블 수준과 열 수준에서 데이터부터 모델까지의 종단 간 계보을 보여줍니다. 심지어 Snowflake와 같은 데이터 소스를 통해 즉시 쿼리를 실행하고 즉각적으로 리니지의 혜택을 얻을 수 있습니다.

Lineage capabilities
Data sources can be across platforms such as Snowflake and Databricks
  • 데이터 분류를 위한 메타데이터 태깅: 데이터 자산에 대한 맥락적 인사이트를 제공하여 데이터와 쿼리를 보강합니다. 열 및 테이블에 대한 설명을 수동으로 입력하거나 Databricks Assistant의 GenAI를 사용해 자동으로 설명을 추가할 수 있습니다. 아래는 설명과 정량화 가능한 특성의 예시입니다:

Metadata tagging insights: frequent users, notebooks, queries, joins, billing trends, and more
Metadata tagging insights: frequent users, notebooks, queries, joins, billing trends, and more

Metadata tagging insights: details on the "features" table
Metadata tagging insights: details on the "features" table

Databricks Assistant uses GenAI to write context-aware descriptions of columns and tables.
Databricks Assistant uses GenAI to write context-aware descriptions of columns and tables.

하나의 통합된 뷰를 사용하면 다음과 같은 결과를 얻을 수 있습니다:

  • 혁신 가속화: 인사이트는 데이터에 좌우됩니다. 분석은 액세스하는 데이터에 좌우됩니다. 따라서 데이터 검색을 간소화하면 비즈니스 인사이트를 더 빠르고 더 잘 생성하여 혁신을 촉진할 수 있습니다.
  • 중앙 집중식 자산 카탈로그화를 통한 비용 절감: 라이선스 비용 절감(여러 공급업체의 솔루션이 아닌 단 하나의 공급업체 솔루션), 사용료 절감, 시장 출시 기간 단축, 전반적인 운영 효율성 향상.
  • 여러 데이터베이스, 데이터 웨어하우스, 오브젝트 스토리지 시스템 등에 분산된 데이터를 줄여 모든 데이터를 더 쉽게 검색하고 액세스할 수 있습니다.

포괄적인 데이터 및 AI 모니터링과 리포팅

데이터브릭스 레이크하우스 모니터링은 데이터와 피처부터 머신러닝 모델에 이르는 전체 데이터 파이프라인을 추가 툴이나 복잡성 없이 모니터링할 수 있도록 지원합니다. Unity Catalog를 기반으로 하는 이 기능을 사용하면 데이터와 AI 자산의 리니지에 대한 심층적인 인사이트를 통해 데이터와 AI 자산의 고품질, 정확성, 안정성을 고유하게 보장할 수 있습니다. 레이크하우스 아키텍처가 지원하는 단일 통합 모니터링 접근 방식을 통해 오류를 진단하고 근본 원인 분석을 수행하며 해결책을 간편하게 찾을 수 있습니다.

데이터의 위치에 관계없이 전체 데이터 파이프라인에서 데이터, ML 모델 및 AI에 대한 신뢰를 어떻게 단일 뷰로 보장할 수 있을까요? 데이터브릭스 레이크하우스 모니터링은 데이터의 위치에 관계없이 데이터에서 인사이트까지 제공하는 업계 유일의 종합 솔루션입니다. 문제 발견을 가속화하고 근본 원인을 파악하며 궁극적으로 솔루션을 추천하는 데 도움을 줍니다.

UC는 레이크하우스 모니터링 기능에 민주화된 대시보드와 시스템 테이블을 통해 직접 쿼리할 수 있는 세분화된 거버넌스 정보를 모두 제공합니다. 거버넌스의 민주화는 운영 감독 및 규정 준수를 비기술 인력까지 확대하여 다양한 팀에서 모든 파이프라인을 모니터링할 수 있도록 합니다.

아래는 시간 경과에 따른 정확도를 포함한 ML 모델 결과의 샘플 대시보드입니다:

ML model dashboard

또한 예측의 데이터 무결성과 시간 경과에 따른 데이터 드리프트도 보여줍니다:

data integrity

또한 R2, RMSE, MAPE와 같은 다양한 ML 메트릭에 대해 시간 경과에 따른 모델 성능을 확인할 수 있습니다:

Lakehouse Monitoring dashboards show data and AI assets quality
Lakehouse Monitoring dashboards show data and AI assets quality

답을 찾을 때 의도적으로 ML 모델 정보를 찾는 것과 오류, 데이터 드리프트, 모델 실패 또는 품질 문제에 대한 자동화된 사전 예방적 알림을 받는 것은 전혀 다른 차원의 문제입니다. 다음은 잠재적인 PII(개인 식별 정보) 데이터 유출에 대한 알림의 예시입니다:

Example proactive alert of potential unmasked private data
Example proactive alert of potential unmasked private data

한 가지 더, 테이블 수준에서 열 수준까지 데이터브릭스의 강력한 리니지 기능을 통해 문제의 영향을 평가하고, 근본 원인 분석을 수행하고, 다운스트림에 미치는 영향을 평가할 수 있습니다.

시스템 테이블: 레이크하우스 통합 가시성 및 규정 준수를 위한 메타데이터 정보

이 기본 테이블을 SQL 또는 활동 대시보드를 통해 쿼리하여 데이터브릭스 인텔리전스 플랫폼 내의 모든 자산에 대한 통합 가시성을 제공할 수 있습니다. 예를 들어, 어떤 사용자가 어떤 데이터 개체에 액세스할 수 있는지, 가격 및 사용량을 제공하는 청구 테이블(billing tables), 클러스터 사용량 및 웨어하우스 이벤트를 고려한 계산 테이블(compute tables), 열과 테이블 간의 리니지 정보 등이 있습니다:

  • 감사 테이블(Audit tables)에는 다양한 UC 이벤트에 대한 정보가 포함되어 있습니다. UC는 메타스토어에 대해 수행된 작업의 감사 로그를 캡처하여 관리자가 특정 데이터 세트에 액세스한 사용자 및 수행한 작업에 대한 세부 정보에 액세스할 수 있도록 합니다.
  • 청구 및 과거 요금 테이블(Billing and historical pricing tables) 에는 전체 계정의 청구 가능한 모든 사용량에 대한 기록이 포함되므로 워크스페이스가 있는 지역에 관계없이 계정의 글로벌 사용량을 볼 수 있습니다.
  • 테이블 리니지 및 컬럼 리니지 테이블(Table lineage and column lineage tables)은 리니지 데이터를 프로그래밍 방식으로 쿼리하여 의사 결정 및 보고서 작성에 활용할 수 있다는 점에서 유용합니다. 테이블 리니지는 해당 UC 테이블 또는 경로와 연결된 job 실행, 노트북 실행 및 대시보드의 읽기 및 쓰기 이벤트를 기록합니다. 컬럼 리니지의 경우, 해당 컬럼을 읽으면 데이터가 캡처됩니다.
  • 노드 유형 테이블(Node types tables)은 노드 유형 이름, 인스턴스의 vCPU 수, 인스턴스의 GPU 및 메모리 수를 요약한 기본 하드웨어 정보와 함께 현재 사용 가능한 노드 유형을 캡처합니다. 또한 비공개 미리 보기에는 각 노드가 얼마나 많은 사용량을 활용하고 있는지에 대한 node_utilization 메트릭이 있습니다.
  • 쿼리 기록(Query history)에는 모든 SQL 명령, I/O 성능, 반환된 행 수에 대한 정보가 들어 있습니다.
  • 클러스터 테이블(Clusters table)에는 다목적 클러스터와 작업 클러스터에 대한 시간 경과에 따른 클러스터 구성의 전체 기록이 포함되어 있습니다.
  • 예측 최적화 테이블(Predictive optimization tables)은 최고의 성능과 비용 효율성을 위해 데이터 레이아웃을 최적화하기 때문에 유용합니다. 이 테이블은 카탈로그 이름, 스키마 이름, 테이블 이름, 컴팩션(compaction)과 vacuum에 대한 작업 메트릭을 제공하여 최적화된 테이블의 작업 이력을 추적합니다.

카탈로그 탐색기에서 자세한 내용을 볼 수 있는 시스템 테이블 중 몇 가지를 소개합니다:

catalog explorer

예를 들어, "key_column_usage" 테이블을 드릴다운하면 기본 키(primary key)를 통해 테이블이 서로 어떻게 연관되어 있는지 정확하게 확인할 수 있습니다:

key column usage

또 다른 예로 "share_recipient_privileges" 테이블에서는 누가 누구에게 어떤 공유를 부여했는지 확인할 수 있습니다:

share recipient privileges

아래 예제 대시보드에는 사용자 수, 테이블, ML 모델, 모니터링되는 테이블의 비율, 시간 경과에 따른 Databricks DBU에 지출된 비용 등이 나와 있습니다:

Governance dashboard showing billing trends, usage, activity and more
Governance dashboard showing billing trends, usage, activity and more

종합적인 데이터 및 AI 모니터링과 리포팅 도구를 사용하면 어떤 이점이 있을까요?

  • 내부 정책 및 보안 침해 가능성을 더 잘 모니터링하여 규정 미준수 위험을 줄임으로써 평판을 보호하고 직원과 파트너의 데이터 및 AI 신뢰도를 향상시킬 수 있습니다.
  • "신뢰할 수 있는 단일 소스", 이상 징후 탐지, 신뢰성 지표를 통해 데이터와 AI의 무결성과 신뢰성이 향상됩니다.

데이터브릭스의 가치 레버 Unity Catalog

Unity Catalog가 비즈니스에 제공하는 가치에 대해 자세히 알아보려면 이전 Unity Catalog 거버넌스 가치 레버 블로그에서 규정 준수 관련 위험 완화, 플랫폼 복잡성 및 비용 절감, 혁신 가속화, 내부 및 외부 협업 개선, 데이터의 가치 수익화에 대해 자세히 살펴보시기 바랍니다.

결론

거버넌스는 위험 완화, 규정 준수 보장, 혁신 가속화, 비용 절감의 핵심입니다. 데이터브릭스 Unity Catalog는 클라우드와 데이터 플랫폼 전반에서 기업의 모든 데이터와 AI를 위한 단일 통합 거버넌스 솔루션을 제공하는 업계 유일의 솔루션입니다.

UC 데이터브릭스 아키텍처는 모든 데이터 자산의 통합된 보기 및 검색, 액세스 관리를 위한 하나의 도구, 향상된 데이터 및 AI 보안을 위한 감사 도구, 궁극적으로 새로운 비즈니스 가치를 창출하는 플랫폼 독립적인 협업을 가능하게 하는 등 거버넌스를 원활하게 만들어 줍니다.

UC는 쉽게 시작할 수 있습니다. 신규 고객인 경우 데이터브릭스에서 UC가 기본으로 활성화되어 있습니다! 또한 프리미엄 또는 엔터프라이즈 워크스페이스를 사용 중인 경우에도 추가 비용이 들지 않습니다.

Databricks 무료로 시작하기

관련 포스트

Data and AI Summit 2023, Unity Catalog 의 새로운 소식 확인하기

데이터 관리에 필수적인 거버넌스의 기본 원칙인 책임, 규정 준수, 품질 및 투명성은 이제 AI에도 똑같이 필수적인 요소가 되었습니다. Databricks는 Unity Catalog 를 통해...
모든 플랫폼 블로그 포스트 보기