주요 컨텐츠로 이동

데이터 웨어하우스(Data Warehouse)

Databricks 무료로 시작하기

데이터 웨어하우스란 무엇입니까?

데이터 웨어하우스는 여러 소스의 현재 및 과거 데이터를 비즈니스에서 쉽게 인사이트와 보고서를 얻을 수 있도록 저장하는 데이터 관리 시스템입니다. 일반적으로 데이터 웨어하우스는 비즈니스 인텔리전스(BI), 보고 및 데이터 분석에 사용합니다.

데이터 웨어하우스를 사용하면 운영 시스템(예: POS 시스템, 재고 관리 시스템, 마케팅/영업 데이터베이스)에서 업로드된 비즈니스 데이터를 빠르고 쉽게 분석할 수 있습니다. 데이터는 운영 데이터 스토어를 통과할 수 있고, 데이터 웨어하우스에서 보고 목적으로 사용하기 전에 데이터 정리를 거쳐 데이터 품질을 보장해야 합니다.

데이터 웨어하우스의 용도는 무엇인가요?

데이터 웨어하우스는 BI, 보고, 데이터 분석 분야에서 운영 데이터베이스로부터 데이터를 추출하고 요약하는 데 사용합니다. 트랜잭션 데이터베이스에서 직접 얻기 어려운 정보는 데이터 웨어하우스를 통해 획득할 수 있습니다. 예를 들어 경영진이 영업 사원 한 사람이 각 제품 카테고리에서 매월 발생시킨 총수익을 알고 싶어 합니다. 트랜잭션 데이터베이스에서 이 데이터를 캡처하지 못하더라도 데이터 웨어하우스에서는 가능합니다.

데이터 웨어하우스의 ETL 및 ELT

ETL(Extract, Transform, Load)과 ELT(Extract, Load, Transform)는 모두 데이터를 변환하는 방법입니다. 데이터 엔지니어는 ETL(추출-변환-로드)을 사용하여 다른 데이터 소스에서 데이터를 추출하고, 데이터 웨어하우스로 옮겨 간편하게 정리하고 구조화하는 경우가 많습니다. 반면, ELT은 먼저 원래의 형식으로 데이터 웨어하우스에 데이터를 로드하고 처리와 동시에 정리와 구조화를 실행합니다.

일반적으로 ETL은 엔터프라이즈 데이터 엔지니어링 팀에서 모아 회사 전체의 데이터 정리 및 순응 규칙을 적용합니다. ELT은 변환 단계가 나중에 있습니다. 일반적으로 프로젝트/비즈니스 팀에서 셀프서비스 분석을 지원하기에 좋습니다.

트랜잭션 처리(OLTP) vs. 분석 처리(OLAP)

온라인 트랜잭션 처리(OLTP) 시스템은 데이터베이스에서 트랜잭션 데이터를 캡처하고 관리합니다. 트랜잭션에는 여러 필드나 컬럼으로 구성된 개별 데이터베이스 기록이 포함됩니다. OLTP 데이터베이스는 온라인 뱅킹, ERP 시스템, 재고 관리 등의 분야에서 주로 사용하며, 거의 즉시 처리되는 행 데이터를 빠르게 업데이트합니다.

온라인 분석 처리(OLAP) 시스템은 OLTP 데이터베이스 및 다른 소스에서 집계한 대량의 과거 데이터에 복잡한 쿼리를 적용함으로써, 데이터 마이닝, 분석, 비즈니스 인텔리전스 프로젝트에 활용합니다. 데이터 웨어하우스는 OLAP 시스템입니다. OLAP 데이터베이스와 데이터 웨어하우스를 사용하는 애널리스트와 의사결정자는 맞춤 보고 도구를 사용하여 데이터를 정보와 행동으로 바꿉니다. OLAP 데이터베이스에서 쿼리에 실패하더라도 고객을 위한 거래 처리가 중단되거나 지연되지 않지만, 비즈니스 인텔리전스 인사이트를 지연하거나 정확도에 영향을 미칠 수 있습니다.

데이터 웨어하우스의 장점

  • 여러 소스에서 얻은 데이터 통합. 사용자가 수십, 수백 가지 개별 시스템에 연결할 필요 없이 모든 데이터의 단일 액세스 지점 역할을 합니다.
  • 과거 인텔리전스. 데이터 웨어하우스는 여러 소스에서 데이터를 통합하여 과거 트렌드를 보여줍니다.
  • 트랜잭션 데이터베이스에서 별도로 분석을 처리하여 두 시스템의 성능을 향상합니다.
  • 데이터 품질, 일관성과 정확도. 데이터 웨어하우스는 이름 지정 규칙의 일관성, 다양한 제품 유형 코드, 언어, 통화 등의 데이터에 관한 표준 의미 체계를 사용합니다.

데이터 웨어하우스의 단점

  • 이미지, 텍스트, IoT 데이터, 메시지 프레임워크(HL7, JSON, XML) 등의 비구조적 데이터를 지원하지 않습니다. 기존 데이터 웨어하우스는 깨끗하고 매우 구조화된 데이터만 저장할 수 있습니다. 하지만 Gartner에서는 조직 내 데이터의 최대 80%가 비구조적 데이터라고 추정합니다. 비구조적 AI 데이터를 활용하려는 조직은 다른 방법을 찾아야 합니다.
  • AI와 머신 러닝을 지원하지 않습니다. 데이터 웨어하우스는 일반적인 DWH 워크로드(예: 과거 보고, BI, 쿼리)용으로 설계 및 최적화되었습니다. 머신 러닝 워크로드를 지원하도록 설계되지도 않았고, 절대 그러한 목적으로 사용할 수 없습니다.
  • SQL 전용— 일반적으로 DWH는 Python이나 R에 대한 지원을 제공하지 않습니다. 이들 언어는 앱 개발자, 데이터 사이언티스트, 머신 러닝 엔지니어들이 주로 사용하는 언어입니다.
  • 중복 데이터 — 데이터 레이크뿐만 아니라, 대부분 엔터프라이즈 데이터 웨어하우스와 주제 분야(또는 부서) 데이터 마트도 중복 데이터, 대량의 중복 ETL이 많이 발생하고 단일한 정보 출처가 없습니다.
  • 동기화가 어려움 - 데이터 레이크와 데이터 웨어하우스 사이에 동기화된 데이터의 사본 두 개를 유지하려면 복잡성과 취약성이 커져서 관리하기 어렵습니다. 데이터 드리프트로 인해 일관적이지 못한 보고와 잘못된 분석이 발생할 수 있습니다.
  • 폐쇄적인 독점적 형식으로 인한 공급업체 종속 효과 — 대부분 엔터프라이즈 데이터 웨어하우스는 오픈 소스와 개방적 표준 기반 형식이 아닌 자체적인 데이터 형식을 사용합니다. 이는 공급업체 종속 효과를 키워서, 다른 도구로 데이터를 분석하기 어렵거나 불가능하게 되고, 데이터를 마이그레이션하기도 어렵게 됩니다.
  • 값비싼 비용 — 상용 데이터 웨어하우스는 데이터 저장과 분석에 비용을 부과합니다. 그러므로 스토리지와 컴퓨팅 비용이 여전히 긴밀하게 결합되어 있습니다. 레이크하우스로 컴퓨팅과 스토리지를 분리하면 필요에 따라 하나씩 독립적으로 확장할 수 있습니다.

레이크하우스에서 이러한 단점을 해결하는 방법

 

레이크하우스에서 이러한 단점을 해결하는 방법

 

레이크하우스 아키텍처는 이런 단점을 해결하고 특히 데이터 레이크와 데이터 웨어하우스의 장점만을 제공합니다. Databricks의 오픈 레이크하우스 아키텍처의 가치를 확인해 보세요.

데이터 웨어하우징을 위한 Databricks 레이크하우스

 

Databricks 레이크하우스 플랫폼 아키텍처

 

기업에서는 레이크하우스를 무사히 구축하기 위해 Delta Lake에 주목했습니다. Delta Lake는 데이터 레이크와 데이터 웨어하우스 양쪽의 가장 좋은 점만 합친 오픈 소스, 오픈 형식 데이터 관리 및 거버넌스 계층입니다. Databricks 레이크하우스 플랫폼은 Delta Lake를 사용하여 다음과 같은 기능을 제공합니다.

  • 데이터 레이크의 경제적인 가격으로 세계 최고의 데이터 웨어하우스 성능을 활용해 보세요.
  • 인프라 관리가 필요 없는 서버리스 SQL 컴퓨팅을 제공합니다.
  • 현대적 데이터 스택(예: dbt, Tableau, PowerBI, Fivetran)과의 매끄러운 통합으로 데이터 수집, 쿼리, 변환을 제공합니다.
  • ANSI-SQL 지원으로 조직 전체의 모든 데이터 실무자에게 최고의 SQL 개발 경험을 제공합니다.
  • 데이터 리니지, 테이블/행 수준 태그, 역할 기반 액세스 제어 등으로 세분화된 거버넌스를 제공합니다.

추가 자료

용어집으로 돌아가기