Star Schema (스타 스키마)
스타 스키마란 무엇입니까?
스타 스키마는 데이터베이스에서 데이터를 정리하는 데 사용하는 다차원적 데이터 모델로, 쉽게 이해하고 분석할 수 있습니다. 스타 스키마는 데이터 웨어하우스, 데이터베이스, 데이터 마트 등의 툴에 적용할 수 있습니다. 스타 스키마는 대규모 데이터 세트에 대한 쿼리를 최적화하도록 설계되었습니다.
Ralph Kimball이 1990년대에 도입한 스타 스키마는 반복적 비즈니스 정의의 복제를 줄여 데이터 웨어하우스에서 데이터를 빠르게 집계하고 필터링하도록 지원하므로 데이터 저장, 내역 관리, 데이터 업데이트에 효율적입니다.
팩트 테이블 및 차원 테이블
스타 스키마는 비즈니스 데이터를 차원(예: 시간 및 제품)과 팩트(예: 트랜잭션의 양 및 수량)로 비정규화하는 데 사용됩니다.
스타 스키마에는 비즈니스 "팩트"(예: 트랜잭션의 양 및 수량)를 포함하는 단일 팩트 테이블이 중앙에 있습니다. 팩트 테이블은 시간 또는 제품과 같은 "차원"에 따라 다른 차원 테이블과 연결됩니다. 스타 스키마를 통해 사용자는 적절한 방식으로 데이터를 쪼개어 분석할 수 있습니다. 이를 위해 일반적으로 두 개 이상의 팩트 테이블과 차원 테이블을 조인합니다.
비정규화된 데이터
스타 스키마는 데이터를 비정규화합니다. 비정규화는 데이터로 쿼리 및 작업을 더 쉽고 간편하게 수행할 수 있도록 차원 테이블에 중복된 열을 추가하는 것입니다. 목적은 많은 계산을 요구하 는 조인 작업을 피하여 데이터 모델에서 중복성(데이터의 복제)을 허용하는 대신 쿼리 속도를 높이는 것입니다.
이 모델에서 팩트 테이블은 정규화되지만 차원 테이블을 그렇지 않습니다. 다시 말해, 팩트 테이블의 데이터는 팩트 테이블에만 존재하지만, 차원 테이블에는 중복된 데이터가 있을 수 있습니다.
스타 스키마의 장점
- 스타 스키마와 같은 팩트/차원 모델은 단순하므로 이해하고 구현하기가 쉽습니다. 그리고 이러한 모델을 사용하면 최종 사용자는 쉽게 필요한 데이터를 찾을 수 있습니다. 데이터 마트 및 기타 데이터 리소스에 적용할 수 있습니다.
- 스노우플레이크 스키마와 같은 정규화된 모델과 비교하여 데이터에 액세스할 때 조인에 대한 종속성이 덜하기 때문에 단순 쿼리에 적합합니다.
- OLAP 모델에 맞게 잘 조정됩니다.
- 스타 스키마는 많은 계산을 요구하는 조인을 피하려고 하므로 정규화된 데이터에 비해 쿼리 성능이 향상됩니다.
스타 스키마는 3NF(Third Normal Form)와 어떻게 다릅니까?
3NF(Third Normal Form)는 정규화를 통해 데이터의 중복성을 감소시키는 방법입니다. 3NF는 완전히 정규화된 것으로 간주되는 데이터베이스를 위한 공통 표준입니다. 3NF에는 일반적으로 데이터 정규화로 인해 스타 스키마보다 테이블이 더 많습니다. 반면, 대규모 테이블 간 조인 수가 증가하여 쿼리가 더 복잡해지는 경향이 있습니다.
리소스
- Databricks 블로그: Delta Lake로 Databricks에서 스타 스키마를 구현하기 위한 5가지 간단한 단계
- Databricks SQL 제품 페이지
- Databricks 용어집 - 스노우플레이크 스키마