주요 컨텐츠로 이동

Delta Lake UniForm

오픈 데이터 레이크하우스를 위한 형식에 구애받지 않는 고성능 스토리지

Delta Lake UniForm은 레이크하우스에 있는 모든 형식과 유형의 데이터를 통합하여 모든 분석 및 AI 워크로드를 지원합니다.

Delta Lake UniForm unifies the data in your lakehouse

여러 형식의 데이터 처리

오픈 데이터 형식에 관계없이 기존 분석 및 AI 도구를 사용할 수 있습니다. UniForm은 여러 형식을 자동으로 즉시 변환하므로 소스 데이터의 단일 복사본을 유지하면서 선호하는 Iceberg나 Hudi 클라이언트를 사용하여 Unity Catalog 엔드포인트를 통해 Delta 테이블을 읽을 수 있습니다. UniForm을 사용하면 공급업체에 종속되지 않고 데이터의 이동성을 유지할 수 있습니다.

에코시스템 전반에서 연결

Delta Lake는 방대한 커넥터 에코시스템을 갖추고 있으며 다양한 프레임워크와 언어를 지원합니다. Delta Sharing은 안전한 데이터 공유를 위한 업계 최초의 오픈 프로토콜로, 데이터 위치에 구애받지 않고 다른 조직과 간편하게 데이터를 공유할 수 있게 해줍니다. Unity Catalog와 기본적으로 통합되기 때문에 전사적으로 공유 데이터를 중앙에서 관리하고 감사할 수 있습니다. 이렇게 하면 공급업체, 파트너와 신뢰를 바탕으로 데이터 자산을 공유할 수 있어 비즈니스 조율에 도움이 되고, 동시에 보안과 규정 준수 요구 사항에도 부합할 수 있습니다. 또한 주요 툴, 플랫폼과 통합되므로 사용자가 선택한 툴에서 공유 데이터를 시각화, 쿼리, 보강하고 관리할 수 있습니다.

Lightning Fast Performance

빠르고 안정적인 성능

Delta Lake는 다른 저장소 형식에 비해 최대 1.7배 더 빠른 데이터 로드와 쿼리 실행을 통해 엄청난 규모와 속도를 제공합니다. 10,000곳 이상의 고객사가 프로덕션에 사용하는 Delta Lake는 단일 파이프라인에서 초당 4천만 건 이상의 이벤트를 처리할 수 있도록 확장되었습니다. Delta Lake는 하루에 5엑사바이트 이상을 처리합니다.

Delta Lake 테이블에서 UniForm을 사용하도록 설정하면 다른 형식의 메타데이터를 작성해도 쿼리 성능이 저하되지 않습니다. UniForm 테이블은 네이티브 엔진의 자체 형식과 동등한 수준의 읽기 성능을 제공합니다.

DatabricksIQ

최고의 가격 대비 성능을 위한 AI 기반

Databricks Data Intelligence Platform은 사용 패턴에 따라 데이터를 최적화합니다. Databricks용 Data Intelligence Engine인 DatabricksIQ에서 제공하는 AI 기반 성능 향상 기능으로 데이터를 자동으로 관리, 구성, 조정할 수 있습니다.

유연한 클러스터링은 파티션 작업에서 흔히 발생하는 문제들을 걱정하지 않아도 되며, 고카디널리티를 가진 열도 파티션할 수 있고, 파티션 열을 변경할 때 비용이 많이 드는 재작성 과정 없이도 최적으로 조정되고 분할된 테이블을 제공합니다. 결과적으로 최소한의 설정으로도 최적으로 클러스터링된 테이블을 빠르게 얻을 수 있습니다.

예측 최적화는 최적의 성능과 가격을 위해 데이터를 자동으로 최적화합니다. 데이터 사용 패턴을 학습하고 최적화를 위한 적절한 계획을 수립한 다음, 고도로 최적화된 서버리스 인프라에서 최적화 작업을 실행합니다.

unity_catalog

대규모 보안 및 거버넌스

Delta Lake는 데이터 거버넌스, 기능에 세분화된 액세스 관리를 활용하여 리스크를 줄입니다. 이것은 보통 데이터 레이크로는 불가능한 일입니다. 데이터 레이크에 보관된 데이터를 빠르고 정확하게 업데이트하여 GDPR과 같은 규제를 준수할 수 있고, 감사 로깅을 통해 개선된 데이터 거버넌스를 유지관리할 수 있습니다. 이러한 기능은 Databricks에서 레이크하우스용 최초의 멀티클라우드 데이터 카탈로그인 Unity Catalog의 일부분으로 기본 통합 및 강화됩니다.

Pipeline-Graph

자동화되고 신뢰할 수 있는<br />데이터 엔지니어링

Delta Live Table을 사용하면 데이터 엔지니어링이 간단해집니다. Delta Lake에서 최신 고품질 데이터에 적합한 데이터 파이프라인을 빌드하여 관리할 손쉬운 방법을 소개합니다. 이 테이블은 선언적 파이프라인 개발, 데이터 안정성 개선 및 클라우드 규모 프로덕션 작업을 통해 레이크하우스의 기초를 구축하도록 도와 ETL 개발과 관리를 간소화하여 데이터 엔지니어링 팀에 큰 도움이 되어줍니다.

사용 사례

Delta Lake Use cases

기존 데이터를 활용한 BI

데이터 레이크에서 직접 비즈니스 워크로드를 실행하여 비즈니스에 즉각적인 인사이트를 얻을 수 있도록 최신 실시간 데이터를 데이터 애널리스트가 쿼리할 수 있는 상태로, 바로 이용할 수 있게 제공합니다. Delta Lake를 사용하면 데이터 레이크 수준의 비용으로 데이터 웨어하우징 성능을 제공하는 멀티클라우드 레이크하우스 아키텍처를 운영해 기존 클라우드 데이터 웨어하우스 대비 최대 6배 더 나은 가격/성능으로 SQL 워크로드를 처리할 수 있습니다.

자세히
Delta Lake Use cases

배치와 스트리밍 통합

간결한 단일 아키텍처에서 배치와 스트리밍 작업을 모두 실행함으로써 복잡하고 중복된 시스템과 운영상의 문제를 피할 수 있습니다. Delta Lake의 경우 테이블 하나가 배치 테이블과 스트리밍 소스 및 싱크를 겸합니다. 스트리밍 데이터 수집, 과거 백필(backfill)) 배치 처리와 대화형 쿼리 모두 바로 사용할 수 있으며 Spark Structured Streaming과 직접 통합됩니다.

Delta Lake Use cases

규제 요구사항에 부합

Delta Lake는 형식이 잘못된 데이터 수집 문제를 없애고 규제 준수를 위한 데이터 삭제의 어려움을 완화하며 변경 데이터 캡처를 위한 데이터 수정 문제도 없애줍니다. Delta Lake는 데이터 레이크에서 ACID 트랜잭션을 지원하여 모든 작업이 완전히 성공하거나 나중에 다시 시도할 수 있게 완전히 중단되도록 보장합니다.이를 위해 데이터 파이프라인을 새로 만들 필요도 없습니다. 또한 Delta lake는 데이터 레이크에 과거 트랜잭션을 모두 기록하므로 GDPR과 CCPA 등의 규정 준수 표준에 안정적으로 부합하기 위해 데이터의 기존 버전에 액세스하여 이를 활용하기도 간편합니다.

더 자세히 알아보기