주요 컨텐츠로 이동

Delta Lake

데이터 레이크
안정성, 보안과 성능

banner-hero
marketure

Delta Lake란
무엇인가요?

Delta Lake는 데이터 레이크에서 안정성, 보안과 성능을 제공하는 오픈 형식 스토리지 계층입니다. 스트리밍 작업과 배치 작업 둘 다에 적합합니다. Delta Lake는 데이터 사일로를 구조적, 반구조적, 비구조적 데이터를 모두 담은 단 하나의 홈으로 대체하므로 비용 효율적이고 고도로 확장 가능한 레이크하우스의 기본 토대가 되어줍니다.

Delta-Lake-Image

양질의 안정적인 데이터

실시간 스트림까지 포함해 데이터 전체에 믿을 수 있는 단일 정보 출처(Single Source of Truth, SSOT)를 제공하므로 데이터 팀이 항상 최신 데이터를 다루도록 보장됩니다. Delta Lake는 ACID 트랜잭션과 스키마 적용을 지원하여 기존 데이터 레이크에 미흡했던 안정성을 제공합니다. 이 때문에 전사적으로 믿을 수 있는 데이터 인사이트를 확장하고, 데이터 레이크에서 직접 분석 및 여타 데이터 프로젝트를 실행하면서도 인사이트 도출 시간을 최대 50배나 단축할 수 있습니다.

unity-catalog

안전한 오픈 데이터 공유

Delta Sharing은 안전한 데이터 공유를 위한 업계 최초의 오픈 프로토콜로, 데이터 위치에 구애받지 않고 다른 조직과 간편하게 데이터를 공유할 수 있게 해줍니다. Unity Catalog와 기본적으로 통합되기 때문에 전사적으로 공유 데이터를 중앙에서 관리하고 감사할 수 있습니다. 이렇게 하면 공급자, 협력업체와 신뢰를 바탕으로 데이터 자산을 공유할 수 있어 비즈니스 조율에 도움이 되고, 동시에 보안과 규정 준수 요구 사항에도 부합할 수 있습니다. 주요 툴, 플랫폼과 통합되므로 사용자가 선택한 툴에서 공유 데이터를 시각화, 쿼리, 보강하고 관리할 수 있습니다.

delta-lake-product

초고속 성능

Delta Lake는 Apache Spark™ 기반으로, 뛰어난 확장성과 속도를 제공합니다. 또한 인덱싱과 같은 성능 기능을 염두에 두고 최적화하였기 때문에 Delta Lake를 이용해본 고객은 최대 48%까지 ETL 워크로드 실행 속도가 빨라지는 효과를 체험했습니다.

delta-lak

오픈, 애자일

Delta Lake 내 모든 데이터는 오픈 Apache Parquet 형식으로 저장되므로, 호환되는 리더라면 무엇이든 종류와 관계없이 데이터를 읽을 수 있습니다. API도 오픈 형식이고 Apache Spark와 호환됩니다. Databricks의 Delta Lake를 이용하면 광범위한 오픈 소스 에코 시스템으로 액세스할 수 있으므로 특정 벤더의 데이터 포멧에 락인(lock-in)되는 문제를 방지할 수 있습니다.

Pipeline-Graph

자동화되고 신뢰할 수 있는데이터 엔지니어링

Delta Live Table과 함께라면 데이터 엔지니어링이 간단해집니다. Delta Lake에서 최신 고품질 데이터에 적합한 데이터 파이프라인을 빌드하여 관리할 손쉬운 방법을 소개합니다. 이 테이블은 선언적 파이프라인 개발, 데이터 안정성 개선 및 클라우드 규모 프로덕션 작업을 통해 레이크하우스의 기초를 구축하도록 도와 ETL 개발과 관리를 간소화하여 데이터 엔지니어링 팀에 큰 도움이 되어줍니다.

unity_catalog

대규모 보안 및 거버넌스

Delta Lake는 데이터 거버넌스, 기능에 세분화된 액세스 관리를 활용하여 리스크를 줄입니다. 이것은 보통 데이터 레이크로는 불가능한 일입니다.
데이터 레이크에 보관된 데이터를 빠르고 정확하게 업데이트하여 GDPR과 같은 규제를 준수할 수 있고, 감사 로깅을 통해 개선된 데이터 거버넌스를 유지관리할 수 있습니다. 이러한 기능은 Databricks에서 레이크하우스용 최초의 멀티클라우드 데이터 카탈로그인 Unity Catalog의 일부분으로 기본 통합 및 강화됩니다.

사용 사례

Delta Lake Use cases

기존 데이터를 활용한 BI

데이터 레이크에서 직접 비즈니스 워크로드를 실행하여 비즈니스에 즉각적인 인사이트를 얻을 수 있도록 최신 실시간 데이터를 데이터 애널리스트가 쿼리할 수 있는 상태로, 바로 이용할 수 있게 제공합니다. Delta Lake를 사용하면 데이터 레이크 수준의 비용으로 데이터 웨어하우징 성능을 제공하는 멀티클라우드 레이크하우스 아키텍처를 운영해 기존 클라우드 데이터 웨어하우스 대비 최대 6배 더 나은 가격/성능으로 SQL 워크로드를 처리할 수 있습니다.

자세히
Delta Lake Use cases

배치와 스트리밍 통합

간결한 단일 아키텍처에서 배치와 스트리밍 작업을 모두 실행함으로써 복잡하고 중복된 시스템과 운영상의 문제를 피할 수 있습니다. Delta Lake의 경우 테이블 하나가 배치 테이블과 스트리밍 소스 및 싱크를 겸합니다. 스트리밍 데이터 수집, 과거 백필(backfill)) 배치 처리와 대화형 쿼리 모두 바로 사용할 수 있으며 Spark Structured Streaming과 직접 통합됩니다.

Delta Lake Use cases

규제 요구사항에 부합

Delta Lake는 형식이 잘못된 데이터 수집 문제를 없애고 규제 준수를 위한 데이터 삭제의 어려움을 완화하며 변경 데이터 캡처를 위한 데이터 수정 문제도 없애줍니다. Delta Lake는 데이터 레이크에서 ACID 트랜잭션을 지원하여 모든 작업이 완전히 성공하거나 나중에 다시 시도할 수 있게 완전히 중단되도록 보장합니다.이를 위해 데이터 파이프라인을 새로 만들 필요도 없습니다. 또한 Delta lake는 데이터 레이크에 과거 트랜잭션을 모두 기록하므로 GDPR과 CCPA 등의 규정 준수 표준에 안정적으로 부합하기 위해 데이터의 기존 버전에 액세스하여 이를 활용하기도 간편합니다.

데이터 수집 네트워크

네이티브 커넥터로 각종 애플리케이션, 데이터베이스와 파일 스토리지에서 빠르고 안정적으로 데이터를 손쉽게 수집해 Delta Lake에 보관합니다.

고객

healthdirect

"Databricks는 의료 서비스 부문의 새로운 수요에 부합하기 위해 꼭 필요했던 분석과 운영성 개선은 물론 출시 시간 단축이라는 효과까지 달성했습니다."
– Healthdirect Australia의 Chief Architect, Peter James

자세히
Yipit Data

"Databricks와 Delta Lake를 활용하면서 이미 대규모로 데이터를 민주화(democratize)할 수 있게 되었고, 동시에 프로덕션 워크로드 실행 비용을 60% 줄여서 수백만 달러를 절감하는 효과를 거두었습니다."
— YipitData 최고 기술 책임자(CTO) Steve Pulec

자세히
Columbia

"Delta Lake는 ACID 기능을 제공해 데이터 파이프라인 운영을 간소화하기
때문에 파이프라인 안정성과 데이터 일관성이 좋아집니다. 동시에 캐싱이나 자동 인덱싱과 같은 기능을 이용하면 데이터에 효율적으로, 성능 수준에 맞춰 액세스할 수 있습니다."
— Columbia Sportswear 선임 엔터프라이즈 데이터 관리자 Lara Minor

자세히
Viacom 18

"Delta Lake 덕분에 데이터 파이프라인 관리에 간소한 방식으로 접근할 수 있게 되었습니다. 이 덕분에 운영 비용은 절감하면서 동시에 다운스트림 분석과 데이터 사이언스의 인사이트 도출 시간(time-to-insight)은 짧아졌어요."
— Viacom18 디지털 변혁 및 기술 사업부 AVP(Assistant Vice President) Parijat Dey

자세히