데이터 웨어하우스
데이터 웨어하우스란 무엇입니까?
데이터 웨어하우스는 여러 소스의 현재 및 과거 데이터를 비즈니스에서 쉽게 인사이트와 보고서를 얻을 수 있는 방식으로 저장하는 데이터 관리 시스템입니다. 일 반적으로 데이터 웨어하우스는 비즈니스 인텔리전스(BI), 분석, 보고, 데이터 애플리케이션, 머신 러닝(ML)을 위한 데이터 준비, 데이터 분석에 사용됩니다.
데이터 웨어하우스를 사용하면 운영 시스템(예: POS 시스템, 재고 관리 시스템, 마케팅/영업 데이터베이스)에서 업로드된 비즈니스 데이터를 빠르고 쉽게 분석할 수 있습니다. 데이터는 운영 데이터 스토어를 통과할 수 있고, 데이터 웨어하우스에서 보고 목적으로 사용하기 전에 데이터 정리를 거쳐 데이터 품질을 보장해야 합니다.
Here’s more to explore
데이터 웨어하우스의 용도는 무엇인가요?
데이터 웨어하우스는 BI, 분석, 보고, 데이터 애플리케이션, 머신러닝을 위한 데이터 준비, 그리고 운영 데이터베이스에서 데이터를 추출하고 요약하는 데이터 분석에 사용됩니다. 예를 들어 경영진이 각 영업 사원이 제품 카테고리별로 매월 발생한 총 수익을 알고자 하는 경우와 같이 트랜잭션 데이터베이스에서 직접 분석하기 어려운 정보는 데이터 웨어하우스를 통해 분석할 수 있습니다. 트랜잭션 데이터베이스에서 이 데이터를 캡처하지 못하더라도 데이터 웨어하우스에서는 가능합니다.
데이터 웨어하우스에는 어떤 유형이 있나요?
- 기존 데이터 웨어하우스: 이 유형의 데이터 웨어하우스는 정형 데이터만 저장합니다. 데이터 웨어하우스의 구조 덕분에 사용자가 데이터에 빠르고 쉽게 액세스하여 보고 및 분석할 수 있습니다.
- 지능형 데이터 웨어하우스: 레이크하우스 아키텍처를 기반으로 구축되고 자동으로 최적화되는 지능형 플랫폼을 갖춘 최신 유형의 데이터 웨어하우스입니다. 지능형 데이터 웨어하우스는 AI 및 ML 모델에 대한 액세스를 제공할 뿐만 아니라 AI를 사용하여 쿼리, 대시보드 생성, 성능 및 크기 최적화를 지원합니다.
데이터 웨어하우스 아키텍처
데이터 웨어하우징 아키텍처의 일반적인 모델은 다계층 구조입니다. 이 아키텍처는 데이터 웨어하우스의 아버지로 불리는 컴퓨터 과학자 Bill Inmon이 만들었습니다.
하위 계층
데이터 웨어하우스 아키텍처의 하위 계층은 데이터 소스와 데이터 저장소로 구성됩니다. 이 계층에는 API, 게이트웨이, ODBC, JDBC, OLE-DB 등의 데이터 액세스 방법이 포함됩니다. 데이터 수집 또는 ETL도 하위 계층에 포함됩니다.
중간 계층
데이터 웨어하우스 아키텍처의 중간 계층은 관계형(ROLAP) 또는 다차원(MOLAP)인 OLAP 서버로 구성됩니다. 이 두 가지 유형을 결합하여 하이브리드 OLAP(HOLAP)로 만들 수 있습니다.
상위 계층
데이터 웨어하우스 아키텍처의 상위 계층은 쿼리, BI, 대시보드, 보고 및 분석을 위한 프런트엔드 클라이언트로 구성됩니다.
데이터 웨어하우스의 세 가지 변형은 무엇인가요?
- 엔터프라이즈 데이터 웨어하우스(EDW): 조직의 여러 팀에서 사용하는 중앙 집중식 데이터 웨어하우스입니다. BI, 분석 및 보고를 위한 단일 데이터 소스인 경우가 많습니다.
- 운영 데이터 저장소(ODS): 최신 운영 데이터 또는 트랜잭션 데이터에 중점을 둔 데이터 웨어하우스의 한 유형입니다.
- 데이터 마트: 단일 비즈니스 라인(LOB) 또는 단일 프로젝트에 서비스를 제공하는 데이터 웨어하우스의 간소화된 버전입니다. 데이터 마트는 EDW보다 규모가 작지만, 일반적으로 조직이 성장하고 LOB가 셀프 서비스를 원할 때 데이터 마트의 수가 증가합니다.
데이터 레이크와 데이터베이스, 그리고 데이터 웨어하우스 비교
데이터 레이크와 데이터 웨어하우스는 어떻게 다른가요?
데이터 레이크와 데이터 웨어하우스는 데이터를 관리하고 저장하는 두 가지 다른 접근 방식입니다.
데이터 레이크는 가공되지 않은 방대한 양의 데이터를 원래 형식 그대로 저장할 수 있는 비정형 또는 반정형 데이터 리포지토리입니다. 데이터 레이크는 미리 정의된 스키마 없이 정형, 반정형, 비정형 등 모든 유형의 데이터를 수집하고 저장하도록 설계되었습니다. 데이터는 정제, 변환 또는 통합되지 않고 원래 형식으로 저장되는 경우가 많기 때문에 대량의 데이터를 더 쉽게 저장하고 액세스할 수 있습니다.
반면에 기존의 데이터 웨어하우스는 다양한 소스의 데이터를 체계적으로 저장하는 구조화된 리포지토리로, 비즈니스 인텔리전스 및 분석을 위한 단일 데이터 소스를 제공하는 것을 목표로 합니다. 데이터는 정제, 변환되어 쿼리 및 분석에 최적화된 스키마로 통합됩니다.
레이크하우스 아키텍처를 사용하는 지능형 데이터 웨어하우스도 비즈니스 인텔리전스 및 분석을 위한 단일 데이터 소스를 제공합니다. 이는 정형, 반정형 또는 비정형 데이터를 저장하여 기존 데이터 웨어하우스를 확장합니다. 데이터 품질 및 임계값 알림과 같은 데이터 관리 기능도 포함되어 있습니다.
데이터 웨어하우스와 데이터베이스는 어떻게 다른가요?
데이터베이스는 텍스트와 숫자를 넘어 이미지, 동영상 등으로 확장되는 정형 데이터의 모음입니다. 이 데이터베이스 관리 시스템은 약어인 DBMS로 더 잘 알려져 있습니다. DBMS는 애플리케이션과 분석에 필요한 데이터를 저장하는 시스템입니다.
반면에 기존의 데이터 웨어하우스는 비즈니스 인텔리전스 및 분석을 위한 데이터를 제공하는 구조화된 리포지토리입니다. 데이터는 정제 및 변환되고 공통 집계 추가를 포함하여 쿼리 및 분석에 최적화된 스키마로 통합됩니다.
데이터 레이크와 데이터 웨어하우스, 그리고 데이터 레이크하우스는 어떻게 다른가요?
데이터 레이크하우스는 두 가지의 장점을 결합한 하이브리드 접근 방식입니다. 기존 데이터 웨어하우스와 데이터 레이크의 기능을 통합 플랫폼으로 결합한 최신 데이터 아키텍처로, 데이터 레이크처럼 가공되지 않은 데이터를 원래 형식 그대로 저장하는 동시에 데이터 웨어하우스와 같은 데이터 처리 및 분석 기능도 제공합니다.
요약하자면, 데이터 레이크와 기존 데이터 웨어하우스, 그리고 데이터 레이크하우스의 중 차이점은 데이터를 관리하고 저장하는 방식에 있습니다. 기존의 데이터 웨어하우스는 정형 데이터를 미리 정의된 스키마에 저장하고, 데이터 레이크는 가공되지 않은 데이터를 원래 형식 그대로 저장하며, 데이터 레이크하우스는 이 두 가지의 기능을 결합한 하이브리드 접근 방식입니다.
데이터 레이크 | 데이터 레이크하우스 | 기존 데이터 웨어하우스 | |
---|---|---|---|
데이터 유형 | 모든 유형: 정형 데이터, 반정형 데이터, 비정형(가공되지 않은) 데이터 | 모든 유형: 정형 데이터, 반정형 데이터, 비정형(가공되지 않은) 데이터 | 구조적 데이터만 |
비용 | $ | $ | $$$ |
형식 | 오픈 형식 | 오픈 형식 | 폐쇄형, 상용(proprietary) 형식 |
확장성 | 확장하여 저렴한 비용으로 데이터를 얼마든지 대량 보유 가능(유형 불문) | 확장하여 저렴한 비용으로 데이터를 얼마든지 대량 보유 가능(유형 불문) | 벤더 비용으로 인해 확장할 때 비용이 기하급수적으로 비싸짐 |
대상 사용자 | 제한적: 데이터 사이언티스트 | 통합됨: 데이터 애널리스트, 데이터 사이언티스트, 머신 러닝 엔지니어 | 제한적: 데이터 애널리스트 |
안정성 | 낮은 수준, 데이터 늪(Data Swamp) | 높은 수준의 안정적인 데이터 | 높은 수준의 안정적인 데이터 |
사용 편이성 | 어려움: 데이터를 구성하고 분류할 툴 없이 가공되지 않은 대량의 데이터를 탐색하기 어려울 수 있음 | 간단함: 데이터 웨어하우스의 단순성과 구조를 제공하면서 동시에 데이터 레이크의 폭넓은 사용 사례 제공 | 간단함: 데이터 웨어하우스 구조 덕분에 사용자가 데이터에 빠르고 손쉽게 액세스하여 보고, 분석 가능 |
성능 | 불량 | 높음 | 높음 |
데이터 레이크가 데이터 웨어하우스를 대체할 수 있을까요?
그렇지 않습니다. 데이터 레이크와 데이터 웨어하우스는 데이터를 관리하고 저장하는 서로 다른 접근 방식이며, 각각 고유한 장단점이 있습니다. 데이터 레이크는 고급 분석을 위한 가공되지 않은 데이터를 제공함으로써 데이터 웨어하우스를 보완할 수 있지만, 전통적인 의미에서 데이터 웨어하우스를 완전히 대체하지는 못합니다. 대신 데이터 레이크와 데이터 웨어하우스는 서로 보완하는데, 데이터 레이크는 고급 분석을 위한 가공되지 않은 데이터 소스 역할을 하고 데이터 웨어하우스는 보고 및 분석을 위한 체계적이고 신뢰할 수 있는 정형 비즈니스 데이터 소스를 제공합니다.
데이터 레이크는 기존의 데이터 웨어하우스를 대체할 수 있는 데이터 레이크하우스의 기반이며, Delta Lake 및 Apache Iceberg™와 같은 오픈 데이터 형식에 안정성과 높은 성능을 제공합니다.
데이터 레이크하우스가 기존 데이터 웨어하우스를 대체할 수 있을까요?
예. 데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 장점을 통합 플랫폼으로 결합한 최신 데이터 아키텍처입니다. 데이터 레이크하우스는 오픈 데이터 레이크를 기반으로 구축되며, 단일 플랫폼에서 데이터 레이크와 데이터 웨어하우스의 기능을 제공하기 때문에 기존 데이터 웨어하우스를 대체할 수 있습니다.
데이터 레이크하우스는 데이터 레이크처럼 가공되지 않은 데이터를 원래 형식 그대로 저장하는 동시에 데이터 웨어하우스와 같은 데이터 처리 및 분석 기능도 제공합니다. 또한 읽기 스키마(Schema-on-Read) 접근 방식을 제공하므로 데이터 처리와 쿼리를 유연하게 수행할 수 있습니다. 데이터 레이크와 데이터 웨어하우스를 단일 플랫폼으로 결합하면 유연성, 확장성, 비용 효율성이 향상됩니다.
최신 데이터 웨어하우스란 무엇인가요?
데이터 웨어하우징은 계속 발전하고 있습니다. 최신 데이터 웨어하우스는 지능형 데이터 웨어하우스라고도 하는데, AI와 같은 최신 기술을 사용하기 때문입니다. 지능형 데이터 웨어하우스는 기존의 데이터 웨어하우스 아키텍처 대신 오픈 데이터 레이크하우스 아키텍처를 활용합니다. 지능형 데이터 웨어하우스는 데이터의 고유성을 이해하고 플랫폼을 자동으로 최적화하여 짧은 레이턴시와 높은 동시성을 제공할 수 있도록 확장성을 보장합니다. 지능형 데이터 웨어하우스에는 보안, 제어 및 워크플로를 아우르는 통합 거버넌스도 필요합니다. 지능형 데이터 웨어하우스는 AI를 사용하여 쿼리를 생성하고, 실수를 수정하고, 시각화를 제안하는 등의 작업을 수행합니다.
데이터 웨어하우스에서 ETL이란 무엇인가요?
데이터 웨어하우스에는 데이터가 필요합니다. 그 데이터는 데이터 웨어하우스에 로드되거나 레이크하우스 페더레이션이라는 개념으로 참조되어야 합니다. 소스 시스템에서 데이터를 추출하고 데이터를 변환한 다음 데이터 웨어하우스에 데이터를 로드하는 프로세스를 ETL(추출, 변환, 로드)이라고 합니다. ETL은 일반적으로 여러 소스의 정형 데이터를 미리 정의된 스키마로 통합하는 데 사용됩니다.
쿼리 페더레이션은 여러 소스와 클라우드의 데이터 소스에 대한 쿼리를 실행하는 데 사용되는 ETL의 한 형태입니다. 모든 데이터를 통합 시스템으로 마이그레이션할 필요 없이 한 곳에서 모든 데이터를 보고 쿼리할 수 있습니다. 이 개념을 데이터 가상화라고 부르기도 합니다.
데이터 웨어하우스에서 차원이란 무엇인가요?
데이터 웨어하우스 차원은 구조화된 라벨링 정보로 데이터를 설명하는 데 사용됩니다. 차원은 정보를 사용하여 필터링, 그룹화 및 라벨링합니다. 예를 들어, 차원은 고객이나 제품과 같은 비즈니스 엔터티일 수 있습니다.
데이터 웨어하우스에서 팩트란 무엇인가요?
데이터 웨어하우스 팩트는 데이터를 숫자로 정량화하는 데 사용됩니다. 팩트의 예로는 고객 주문, 재무 데이터 등이 있습니다.
데이터 웨어하우스에서 차원 모델링이란 무엇인가요?
차원 모델링은 데이터를 차원과 팩트로 구성하는 데이터 웨어하우징 기법입니다. 차원 모델링은 중요한 비즈니스 프로세스를 식별한 다음 이러한 비즈니스 프로세스를 지원하기 위해 데이터 웨어하우스를 모델링합니다.
데이터 웨어하우스에서 스타 스키마란 무엇인가요?
스타 스키마는 데이터베이스에서 데이터를 정리하는 데 사용하는 다차원적 데이터 모델로, 쉽게 이해하고 분석할 수 있습니다. 스타 스키마는 데이터 웨어하우스, 데이터베이스, 데이터 마트 등의 툴에 적용할 수 있습니다. 스타 스키마는 대규모 데이터 세트에 대한 쿼리를 최적화하도록 설계되었습니다.
Ralph Kimball이 1990년대에 도입한 스타 스키마는 반복적 비즈니스 정의의 복제를 줄여 데이터 웨어하우스에서 데이터를 빠르게 집계하고 필터링하도록 지원하므로 데이터 저장, 내역 관리, 데이터 업데이트에 효율적입니다.
데이터 웨어하우스를 통해 기업이 기대할 수 있는 이점은 무엇인가요?
- 여러 소스에서 얻은 데이터의 통합: 데이터 웨어하우스는 모든 데이터에 대한 단일 액세스 지점 역할을 하므로, 사용자가 수십, 수백 가지 개별 데이터 저장소에 연결할 필요가 없습니다.
- 과거 인텔리전스: 데이터 웨어하우스는 여러 소스에서 데이터를 통합하여 과거 트렌드를 보여줍니다.
- 트랜잭션 데이터베이스에서 별도로 분석을 처리하여 두 시스템의 성능 향상
- 데이터 품질, 일관성 및 정확도: 올바르게 구성된 데이터 웨어하우스는 이름 지정 규칙의 일관성, 다양한 제품 유형 코드, 언어, 통화 등의 데이터에 관한 표준 의미 체계를 사용합니다.
- SQL 전문 지식이 없는 사용자를 포함하여 누구나 데이터에서 답을 찾을 수 있습니다.
데이터 웨어하우스의 단점
사용하는 데이터 웨어하우스의 유형에 관계없이 여전히 과제는 남아 있습니다.
- 데이터 및 AI 자산 전반에 걸쳐 결합되지 않은 도구로 인해 파편화된 접근 방식이 초래하여 데이터 거버넌스가 손상됩니다.
- 쿼리 작성, 데이터 구조 이해, 최적의 데이터 소스 찾기 및 연결 등의 작업을 위한 전문 기술과 교육이 필요합니다.
- 데이터 웨어하우스가 성장함에 따라 속도가 느려지고, 클라우드 내에서는 클라우드 컴퓨팅 비용으로 인해 비용이 빠르게 증가합니다.
확장성 및 성능
데이터 볼륨이 증가함에 따라 레이크하우스 아키텍처는 최적의 비용으로 일관된 성능을 유지하기 위해 스토리지와 독립적으로 컴퓨팅 기능을 분산합니다. 조직이 필요에 따라 데이터 운영의 확장성을 보장하려면 탄력적으로 설계된 플랫폼이 필요합니다. 확장성은 다양한 차원으로 확장됩니다.
- 서버리스: 플랫폼은 필요한 컴퓨팅 용량에 따라 워크로드를 탄력적으로 조정하고 확장할 수 있어야 합니다. 이러한 동적 리소스 할당은 수요가 폭증하는 상황에도 신속한 데이터 처리와 분석을 보장합니다.
- 동시성: 플랫폼은 서버리스 컴퓨팅과 AI 기반 최적화를 활용하여 동시 데이터 처리와 쿼리 실행을 용이하게 해야 합니다. 이렇게 하면 여러 사용자와 팀이 성능 제약 없이 동시에 분석 작업을 수행할 수 있습니다.
- 스토리지: 플랫폼은 데이터 레이크와 원활하게 통합되어 데이터 가용성과 안정성을 보장하면서 방대한 양의 데이터를 비용 효율적으로 저장할 수 있어야 합니다. 또한 데이터 스토리지를 최적화하여 성능을 향상시키고 스토리지 비용을 줄여야 합니다.
확장성은 필수적이지만 성능으로 보완됩니다. 플랫폼은 성능을 최적화하기 위해 다양한 AI 기반 최적화를 사용해야 합니다.
- 쿼리 최적화: 플랫폼은 쿼리 실행을 가속화하기 위해 머신 러닝 최적화 기술을 사용해야 합니다. 또한 자동 인덱싱, 캐싱 및 프레디케이트 푸시다운을 활용하여 쿼리가 효율적으로 처리되도록 함으로써 신속한 인사이트를 얻을 수 있습니다.
- 자동 확장: 플랫폼은 워크로드에 맞게 서버리스 리소스를 지능적으로 확장하여 최적의 쿼리 성능을 유지하면서 사용자가 실제로 사용한 컴퓨팅 용량에 대해서만 비용을 지불하도록 해야 합니다.
- 쿼리 성능 가속화: 플랫폼은 데이터 레이크에서 직접 저렴한 비용으로 데이터 수집, ETL, 스트리밍, 데이터 사이언스, 대화형 쿼리 등을 매우 빠르게 처리해야 합니다.
- Delta Lake: 플랫폼은 AI 모델을 사용하여 데이터 스토리지의 일반적인 문제를 해결하므로 시간이 지남에 따라 테이블이 변경되더라도 수동으로 관리할 필요 없이 더 빠른 성능을 경험할 수 있습니다.
- 예측 최적화: 최적의 성능과 가격을 제공하기 위해 데이터를 자동으로 최적화합니다. 데이터 사용 패턴을 학습하고 최적화를 위한 적절한 계획을 수립한 다음, 고도로 최적화된 서버리스 인프라에서 최적화 작업을 실행합니다.
기존 데이터 웨어하우스의 문제점
기존 데이터 웨어하우스에는 또 다른 문제점이 있습니다.
- 이미지, 텍스트, IoT 데이터, 메시지 프레임워크(HL7, JSON, XML) 등의 비정형 데이터에 대한 지원이 제한되거나 제공되지 않음: 기존 데이터 웨어하우스는 정제되고 구조화 수준이 높은 데이터만 저장할 수 있습니다. 하지만 Gartner에서는 조직 내 데이터의 최대 80%가 비정형 데이터라고 추정합니다. 비정형 데이터에 AI를 활용하려는 조직은 다른 방법을 찾아야 합니다.
- AI와 머신 러닝 지원 안 함: 데이터 웨어하우스는 일반적인 데이터 웨어하우스 워크로드(예: 과거 보고, BI, 쿼리)용으로 설계되고 최적화되었습니다. 이는 머신 러닝 워크로드를 지원하도록 설계되지도 않았고, 절대 그러한 목적으로 사용할 수 없습니다.
- SQL 전용: 일반적으로 데이터 웨어하우스는 앱 개발자, 데이터 사이언티스트, 머신 러닝 엔지니어들이 주로 사용하는 언어인 Python이나 R에 대한 지원을 제공하지 않습니다.
- 중복 데이터: 데이터 레이크뿐만 아니라, 대부분 엔터프라이즈 데이터 웨어하우스와 주제 분야(또는 부서) 데이터 마트도 중복 데이터, 대량의 중복 ETL이 많이 발생하고 단일 정보 소스가 없습니다.
- 동기화가 어려움: 데이터 레이크와 데이터 웨어하우스 사이에 동기화된 데이터의 사본 두 개를 유지하려면 복잡성과 취약성이 커져서 관리하기 어렵습니다. 데이터 드리프트로 인해 일관적이지 못한 보고와 잘못된 분석이 발생할 수 있습니다.
- 폐쇄적인 독점 형식으로 인한 공급업체 종속 효과: 대부분의 엔터프라이즈 데이터 웨어하우스는 오픈 소스와 개방적 표준 기반 형식이 아닌 자체적으로 독점 데이터 형식을 사용합니다. 이렇게 하면 공급업체 종속성이 높아져 다른 툴로 데이터를 분석하기가 어렵거나 불가능해지고 데이터를 마이그레이션하기도 더 어려워집니다.
- 값비싼 비용: 상용 데이터 웨어하우스는 데이터 저장과 분석에 비용을 부과합니다. 그러므로 스토리지와 컴퓨팅 비용이 여전히 긴밀하게 결합되어 있습니다. 레이크하우스로 컴퓨팅과 스토리지를 분리하면 필요에 따라 하나씩 독립적으로 확장할 수 있습니다.
- 별도 보고 솔루션: 별도의 보고 솔루션의 솔루션의 전체 기능 없이 데이터에 대해 간단한 질문을 해야 할 때도 많습니다(예: 3분기 판매 수익은 얼마인가요?).
- 테이블 형식 종속: 비즈니스 라인과 사용 사례 전반에 걸쳐 유연성이 필요하지만, 데이터 웨어하우스는 때때로 특정 테이블 형식(예: Apache Iceberg)에 종속됩니다.
독점 테이블 형식
테이블 형식은 데이터 웨어하우스의 장점을 데이터 레이크에 가져다주는 주요 기술입니다. 테이블 형식은 시간 경과에 따른 테이블의 상태를 나타내는 방식으로 데이터와 메타데이터를 구성합니다.
독점 테이블 형식은 일반적으로 분석, 보고, 머신 러닝과 같은 작업에서 대규모 데이터 세트에 효과적으로 액세스하는 것이 중요한 클라우드 환경에서 사용됩니다. 특정 공급업체는 스토리지 크기 감소, 읽기/쓰기 속도 감소, 버전 제어 추가 등 특정한 문제를 해결하기 위해 파일 형식이나 구조를 만들게 됩니다.
Databricks의 독점 형식인 Delta Lake는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 오픈 소스, 오픈 형식 데이터 관리 및 거버넌스 계층입니다. 주요 기능은 다음과 같습니다.
- ACID 트랜잭션: Delta Lake는 업데이트, 삭제, 삽입과 같은 동시 작업을 실행하는 중에도 데이터를 일관되게 유지합니다. 따라서 데이터가 항상 최신 상태로 일관되게 유지됩니다.
- 확장 가능한 메타데이터: Delta Lake는 데이터 세트의 증가에 맞춰 확장되며, 사용자가 테이블에 메타데이터를 저장할 수 있습니다 따라서 데이터 변경 사항을 추적하고 공유하기가 더 쉬워집니다.
- 스키마 적용: Delta Lake는 모든 데이터가 테이블의 특정한 형식을 준수하도록 보장합니다.
- Apache Spark™ 와의 호환성: Delta Lake는 오픈 소스이므로 Apache Spark API와 호환됩니다. 코드를 수정하지 않고도 기존 Spark 애플리케이션에서 Delta Lake를 사용할 수 있습니다.
OTF(오픈 테이블 형식)에 종속되거나 Delta Lake와 Apache Iceberg 중 하나를 선택해야 하는 상황을 피하려면 Delta Lake UniForm과 같은 범용 형식을 사용할 수 있습니다.
멀티클라우드
조직에서는 비용을 최적화하거나 데이터 세트의 특정 요구사항에 맞추기 위해 데이터를 두 개 이상의 클라우드 서비스 제공업체에 분산하여 보관할 수 있습니다. 데이터가 서로 다른 네트워크에서 서로 다른 데이터 저장 스키마로 관리되는 경우 문제가 발생할 수 있습니다.
최신 레이크하우스 아키텍처는 단일 클라우드 시스템에 종속되지 않고 여러 클라우드 서비스 제공업체에 걸쳐 데이터를 관리할 수 있습니다. 이를 통해 조직이 누릴 수 있는 이점은 다음과 같습니다.
- 데이터 분산: 다양한 클라우드 플랫폼에 데이터를 분산하면 예산이나 규정 준수 문제에 가장 적합한 서비스 모음을 찾을 수 있습니다.
- 복원력 향상: 멀티클라우드 환경은 워크로드와 백업을 여러 공급업체에 분산하여 데이터 가용성을 향상시킵니다. 이는 하나의 클라우드 서비스가 중단되거나 예기치 않은 다운타임이 발생하는 경우 매우 중요할 수 있습니다.
- 데이터 통합: 멀티클라우드를 지원하는 데이터 웨어하우스는 소스 전반의 데이터를 실시간으로 통합하여 양질의 데이터에 액세스하고 더 나은 의사 결정을 내릴 수 있도록 지원합니다.
- 규정 준수: 멀티클라우드 아키텍처는 데이터가 지리적으로 저장되는 위치 또는 여러 클라우드 서비스에 걸쳐 저장되는 방식을 결정할 수 있는 특정 법률 및 규제 요건을 충족하는 데 도움이 될 수 있습니다.
지능형 데이터 웨어하우스의 문제점
지능형 데이터 웨어하우스에는 여러 가지 문제점이 있습니다.
- 이 최신 접근 방식은 여전히 진화하고 있으므로 전략을 발전시킬 의지가 있는 조직이 필요합니다.
- AI 정책: 조직은 지능형 데이터 웨어하우스에서 AI 기능을 사용할 수 있는 사용자 유형과 시스템에 대한 정책을 수립해야 합니다.
데이터 웨어하우징을 위한 Databricks의 솔루션에는 어떤 것이 있나요?
Databricks는 개방형 데이터 레이크하우스 아키텍처를 기반으로 구축된 지능형 데이터 웨어하우스인 Databricks SQL을 제공합니다. Databricks SQL은 ML, 데이터 거버넌스, 워크플로 등을 포함하는 통합 플랫폼인 데이터 인텔리전스 플랫폼의 일부입니다. 모든 데이터에 대해 통합된 개방형 기반을 사용함으로써 ML/AI, 스트리밍, 오케스트레이션, ETL 및 실시간 분석, 데이터 웨어하우징, 통합 보안, 거버넌스 및 카탈로그는 물론 안정성과 공유를 위한 통합 데이터 스토리지를 동일한 플랫폼에서 이용할 수 있습니다. 또한 Databricks 이터 인텔리전스 플랫폼은 개방형 데이터 레이크하우스 아키텍처를 기반으로 구축되었기 때문에 로그, 텍스트, 오디오, 비디오, 이미지 등 가공되지 않은 모든 데이터를 저장할 수 있습니다.
조직에서는 레이크하우스를 성공적으로 구축하기 위해 Delta Lake에 주목했습니다. Delta Lake는 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 오픈 소스, 오픈 형식 데이터 관리 및 거버넌스 계층입니다. Databricks 데이터 인텔리전스 플랫폼을 사용하여 다음과 같은 기능을 제공합니다.
- 데이터 레이크의 경제적인 가격으로 세계 최고의 데이터 웨어하우스 성능 제공
- 인프라 관리가 필요 없는 서버리스 SQL 컴퓨팅
- 현대적 데이터 스택(예: dbt, Tableau, PowerBI, Fivetran)과의 매끄러운 통합으로 데이터 수집, 쿼리, 변환
- ANSI-SQL 지원으로 조직 전체의 모든 데이터 실무자에게 최고의 SQL 개발 경험 제공
- 데이터 리니지, 테이블/행 수준 태그, 역할 기반 액세스 제어 등으로 세분화된 거버넌스
- 데이터의 의미를 이해하는 AI 기반 데이터 인텔리전스 엔진