주요 컨텐츠로 이동

Medallion 아키텍처

Medallion 아키텍처란 무엇입니까?

메달리온 아키텍처레이크하우스에 논리적으로 데이터를 정리하는 데 사용하는 데이터 설계 패턴입니다. 이 아키텍처의 목표는 데이터가 아키텍처의 각 레이어를 통과하는 동안(브론즈 ⇒ 실버 ⇒ 골드 레이어 테이블) 데이터의 구조와 품질을 증분적, 점진적으로 개선하는 것입니다. 메달리온 아키텍처는 "멀티 홉" 아키텍처라고 부르기도 합니다.

2025년 4월 29일 서울에서 열리는 Data Intelligence Day 컨퍼런스에 참석하여 조직에 필요한 AI 및 데이터 역량을 극대화하세요. 신뢰할 수 있는 글로벌 솔루션 제공 업체인 데이터브릭스의 웨어하우징을 통해 통합 거버넌스, AI 애플리케이션, 데이터 엔지니어링에 대한 필수 인사이트들을 업계 전문가들의 실제 사례들과 함께 공유받을 수 있습니다. 지금 이 페이지에서 등록하세요.

자세히 보기

메달리온 아키텍처로 데이터 파이프라인 구축하기

Databricks 는 다음과 같은 도구를 제공합니다. Delta Live Tables (DLT)와 같은 도구를 제공하여 사용자가 단 몇 줄의 코드만으로 브론즈, 실버, 골드 테이블로 데이터 파이프라인을 즉시 구축할 수 있습니다. 또한 스트리밍 테이블과 구체화된 보기를 통해 사용자는 Apache Spark Structured Streaming에서 점진적으로 새로 고쳐지고 업데이트되는 스트리밍 DLT 파이프라인을 생성할 수 있습니다. 자세한 내용은 단일 파이프라인에서 스트리밍 테이블과 구체화된 뷰를 결합하는 방법에 대한 Databricks 설명서를 참조하세요.

브론즈 레이어(원시 데이터)

브론즈 레이어에는 외부 소스 시스템의 모든 데이터가 들어갑니다. 이 레이어의 테이블 구조는 소스 시스템 테이블 구조에 "그대로" 대응하며, 로드 날짜/시간, 프로세스 ID 등을 캐캡처하는 메타데이터 컬럼이 추가됩니다. 이 레이어는 변경 데이터를 빠르게 캡처할 뿐만 아니라, 소스(콜드 스토리지)의 과거 아카이브, 데이터 리니지, 감사 기능, 필요할 경우 소스 시스템에서 데이터를 다시 읽지 않고도 재처리하는 기능을 제공하는 것이 핵심입니다.

실버 레이어(정리와 순응이 끝난 데이터)

레이크하우스의 실버 레이어에서는 브론즈 레이어의 데이터에 매칭, 병합, 순응, ("적당한 수준"으로) 정리를 적용합니다. 실버 레이어에서는 모든 주요 비즈니스 단체, 개념, 트랜잭션에 대한 "엔터프라이즈 뷰"를 제공합니다. (예: 마스터 고객, 스토어, 중복이 없는 트랜잭션, 교차 참조 테이블).

실버 레이어는 다른 소스의 데이터를 엔터프라이즈 뷰로 가져오고, 즉석 보고를 위한 셀프 서비스 분석과 고급 분석, ML을 지원합니다. 실버 레이어는 부서 애널리스트, 데이터 엔지니어, 데이터 사이언티스트에게는 소스 역할을 하면서, 이들이 프로젝트와 분석을 추가로 생성하여 골드 레이어에 있는 회사 및 부서 데이터 프로젝트를 통해 비즈니스 문제에 답할 수 있도록 돕습니다.

레이크하우스 데이터 엔지니어링 패러다임에서는 일반적으로 ETL이 아니라 ELT 방식을 따릅니다. 즉, 실버 레이어를 로드하는 동안 최소한 또는 "적당한 수준"의 변환과 데이터 정리 규칙만 적용합니다. 데이터 레이크에서 데이터를 수집하고 전달하는 속도와 민첩성을 우선시하고, 실버에서 골드 레이어로 데이터를 로드하는 동안 각 프로젝트의 여러 가지 복잡한 변환과 비즈니스 규칙을 적용합니다. 데이터 모델링의 관점에서 보았을 때, 실버 레이어는 데이터 모델처럼 3차 정규형이 더 많습니다. 이 레이어에는 데이터 볼트와 유사하고 쓰기 성능이 오수한 데이터 모델을 사용할 수 있습니다.

골드 레이어(큐레이션된 비즈니스 레벨 테이블)

일반적으로 레이크하우스 골드 레이어에 있는 데이터는 바로 사용할 수 있는 "프로젝트별" 데이터베이스에 정리됩니다. 골드 레이어는 보고용으로 사용하고, 조인의 개수가 적고 더욱 비정규화된 읽기 최적화 데이터 모델을 사용합니다. 여기에 데이터 변환과 데이터 품질 규칙의 마지막 레이어가 적용됩니다. 고객 분석, 제품 품질 분석, 재고 분석, 고객 세그먼테이션, 제품 추천, 마케팅/영업 분석 등의 프로젝트에서 마지막 표시 레이어가 여기에 들어갑니다. 레이크하우스의 골드 레이어에는 주로 Kimball 스타일 스타 스키마 기반 데이터 모델이나 Inmon 스타일 데이터 마트가 들어가는 사례가 많습니다.

데이터가 레이크하우스의 각 레이어를 통과하는 동안 큐레이션되는 모습을 확인할 수 있습니다. 기존 RDBMS 기술 스택에서 대량의 데이터 마트와 EDW가 레이크하우스로 입력하는 경우도 있습니다. 이제 처음으로 기업에서 "EDW 전체"에 대한 고급 분석과 머신 러닝을 적용할 수 있습니다. 기존 스택에서는 원래 아예 불가능했거나 비용이 지나치게 많이 들었습니다. (예: IoT/제조 데이터는 결함 분석과 관련하여 영업 및 마케팅 데이터와 연결되어 있습니다. 의료 유전체학, EMR/HL7 임상 데이터 시장은 보험료 청구 데이터와 결합되어 시기 적절하고 개선된 환자 치료 분석을 위한 의료 데이터 레이크를 구성합니다.)

레이크하우스 아키텍처의 장점

  • 간단한 데이터 모델
  • 쉽게 이해하고 구현 가능
  • 증분적 ETL 지원
  • 언제든 원시 데이터에서 테이블 생성 가능
  • ACID 트랜잭션, 시간 이동

레이크하우스에 대한 간단한 설명

레이크하우스는 데이터 레이크와 데이터 웨어하우스의 장점만을 결합한 새로운 데이터 플랫폼 아키텍처 패러다임입니다. 현대적 레이크하우스는 매우 확장성이 높고 성능이 우수한 데이터 플랫폼으로, 원시 데이터 세트와 준비된 데이터 세트를 모두 호스팅하여 기업에서 빠르게 사용할 수 있도록 지원합니다. 또한, 고급 비즈니스 인사이트를 확보하고 결정에 도움을 받을 수 있습니다. 데이터 사일로를 무너트리고, 하나의 플랫폼에서 회사 전체의 권한이 있는 사용자에게 매끄럽고 안전한 데이터 액세스를 제공합니다.

메달리온 아키텍처와 데이터 메시

메달리온 아키텍처는 데이터 메시의 개념과 양립합니다. 브론즈와 실버 테이블을 단일 업스트림 테이블의 데이터를 사용하여 여러 다운스트림 테이블을 사용하는 것처럼 "일 대 다" 방식으로 함께 조인할 수 있습니다.

[ 지금 Databricks를 무료로 체험해 보세요 ]

용어집으로 돌아가기