Delta Lake UniForm은 레이크하우스에 있는 모든 형식과 유형의 데이터를 통합하여 모든 분석 및 AI 워크로드를 지원합니다.
![Delta Lake UniForm unifies the data in your lakehouse](https://www.databricks.com/sites/default/files/2024-06/uniform-delta-lake-supports-ecosystems.png?v=1717574407)
여러 형식의 데이터 처리
오픈 데이터 형식에 관계없이 기존 분석 및 AI 도구를 사용할 수 있습니다. UniForm은 여러 형식을 자동으로 즉시 변환하므로 소스 데이터의 단일 복사본을 유지하면서 선호하는 Iceberg나 Hudi 클라이언트를 사용하여 Unity Catalog 엔드포인트를 통해 Delta 테이블을 읽을 수 있습니다. UniForm을 사용하면 공급업체에 종속되지 않고 데이터의 이동성을 유지할 수 있습니다.
에코시스템 전반에서 연결
Delta Lake는 방대한 커넥터 에코시스템을 갖추고 있으며 다양한 프레임워크와 언어를 지원합니다. Delta Sharing은 안전한 데이터 공유를 위한 업계 최초의 오픈 프로토콜로, 데이터 위치에 구애받지 않고 다른 조직과 간편하게 데이터를 공유할 수 있게 해줍니다. Unity Catalog와 기본적으로 통합되기 때문에 전사적으로 공유 데이터를 중앙에서 관리하고 감사할 수 있습니다. 이렇게 하면 공급업체, 파트너와 신뢰를 바탕으로 데이터 자산을 공유할 수 있어 비즈니스 조율에 도움이 되고, 동시에 보안과 규정 준수 요구 사항에도 부합할 수 있습니다. 또한 주요 툴, 플랫폼과 통합되므로 사용자가 선택한 툴에서 공유 데이터를 시각화, 쿼리, 보강하고 관리할 수 있습니다.
![Lightning Fast Performance](https://www.databricks.com/sites/default/files/2024-04/lightning-fast-performance-040224.png?v=1712342157)
빠르고 안정적인 성능
Delta Lake는 다른 저장소 형식에 비해 최대 1.7배 더 빠른 데이터 로드와 쿼리 실행을 통해 엄청난 규모와 속도를 제공합니다. 10,000곳 이상의 고객사가 프로덕션에 사용하는 Delta Lake는 단일 파이프라인에서 초당 4천만 건 이상의 이벤트를 처리할 수 있도록 확장되었습니다. Delta Lake는 하루에 5엑사바이트 이상을 처리합니다.
Delta Lake 테이블에서 UniForm을 사용하도록 설정하면 다른 형식의 메타데이터를 작성해도 쿼리 성능이 저하되지 않습니다. UniForm 테이블은 네이티브 엔진의 자체 형식과 동등한 수준의 읽기 성능을 제공합니다.
![DatabricksIQ](https://www.databricks.com/sites/default/files/2024-03/self-optimizing.jpg?v=1711537973)
최고의 가격 대비 성능을 위한 AI 기반
Databricks Data Intelligence Platform은 사용 패턴에 따라 데이터를 최적화합 니다. Databricks용 Data Intelligence Engine인 DatabricksIQ에서 제공하는 AI 기반 성능 향상 기능으로 데이터를 자동으로 관리, 구성, 조정할 수 있습니다.
유연한 클러스터링은 파티션 작업에서 흔히 발생하는 문제들을 걱정하지 않아도 되며, 고카디널리티를 가진 열도 파티션할 수 있고, 파티션 열을 변경할 때 비용이 많이 드는 재작성 과정 없이도 최적으로 조정되고 분할된 테이블을 제공합니다. 결과적으로 최소한의 설정으로도 최적으로 클러스터링된 테이블을 빠르게 얻을 수 있습니다.
예측 최적화는 최적의 성능과 가격을 위해 데이터를 자동으로 최적화합니다. 데이터 사용 패턴을 학습하고 최적화를 위한 적절한 계획을 수립한 다음, 고도로 최적화된 서버리스 인프라에서 최적화 작업을 실행합니다.
![unity_catalog](https://www.databricks.com/sites/default/files/2022-12/unity_catalog.png?v=1671794628)
대규모 보안 및 거버넌스
Delta Lake는 데이터 거버넌스, 기능에 세분화된 액세스 관리를 활용하여 리스크를 줄입니다. 이것은 보통 데이터 레이크로는 불가능한 일입니다. 데이터 레이크에 보관된 데이터를 빠르고 정확하게 업데이트하여 GDPR과 같은 규제를 준수할 수 있고, 감사 로깅을 통해 개선된 데이터 거버넌스를 유지관리할 수 있습니다. 이러한 기능은 Databricks에서 레이크하우스용 최초의 멀티클라우드 데이터 카탈로그인 Unity Catalog의 일부분으로 기본 통합 및 강화됩니다.
![Pipeline-Graph](https://www.databricks.com/sites/default/files/2022-12/Pipeline-Graph.png?v=1671794576)
자동화되고 신뢰할 수 있는<br />데이터 엔지니어링
Delta Live Table을 사용하면 데이터 엔지니어링이 간단해집니다. Delta Lake에서 최신 고품질 데이터에 적합한 데이터 파이프라인을 빌드하여 관리할 손쉬운 방법을 소개합니다. 이 테이블은 선언적 파이프라인 개발, 데이터 안정성 개선 및 클라우드 규모 프로덕션 작업을 통해 레이크하우스의 기초를 구축하도록 도와 ETL 개발과 관리를 간소화하여 데이터 엔지니어링 팀에 큰 도움이 되어줍니다.
사용 사례
더 자세히 알아보기
고객
"Databricks는 의료 서비스 부문의 새로운 수요에 부합하기 위해 꼭 필요했던 분석과 운영성 개선은 물론 출시 시간 단축이라는 효과까지 달성했습니다."
– Healthdirect Australia의 Chief Architect, Peter James
"Databricks와 Delta Lake를 활용하면서 이미 대규모로 데이터를 민주화(democratize)할 수 있게 되었고, 동시에 프로덕션 워크로드 실행 비용을 60% 줄여서 수백만 달러를 절감하는 효과를 거두었습니다."
— YipitData 최고 기술 책임자(CTO) Steve Pulec
"Delta Lake는 ACID 기능을 제공해 데이터 파이프라인 운영을 간소화하기
때문에 파이프라인 안정성과 데이터 일관성이 좋아집니다. 동시에 캐싱이나 자동 인덱싱과 같은 기능을 이용하면 데이터에 효율적으로, 성능 수준에 맞춰 액세스할 수 있습니다."
— Columbia Sportswear 선임 엔터프라이즈 데이터 관리자 Lara Minor
"Delta Lake 덕분에 데이터 파이프라인 관리에 간소한 방식으로 접근할 수 있게 되었습니다. 이 덕분에 운영 비용은 절감하면서 동시에 다운스트림 분석과 데이터 사이언스의 인사이트 도출 시간(time-to-insight)은 짧아졌어요."
— Viacom18 디지털 변혁 및 기술 사업부 AVP(Assistant Vice President) Parijat Dey