Delta Live Tables(DLT)는 Databricks Data Intelligence Platform용 선언적 ETL 프레임워크로, 데이터 팀이 스트리밍 및 배치 ETL을 비용 효율적인 방식으로 간소화할 수 있도록 지원합니다. 데이터에 대해 수행할 변환을 정의하기만 하면 DLT 파이프라인이 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리를 자동으로 관리합니다.
효율적인 데이터 수집
레이크하우스에 프로덕션에 바로 사용할 수 있는 ETL 파이프라인을 구축하는 첫 단계는 수집입니다. DLT는 데이터 엔지니어 및 Python 개발자부터 데이터 사이언티스트 및 SQL 애널리스트에 이르기까지 팀 전체가 간단하고 효율적으로 수집할 수 있도록 지원합니다. DLT를 사용하면 Databricks의 Apache Spark™가 지원하는 모든 데이터 소스에서 데이터를 로드할 수 있습니다.
- Auto Loader 및 스트리밍 테이블을 사용하여 DLT 파이프라인 또는 Databricks SQL 쿼리용 브론즈 계층에 데이터를 증분 방식으로 배치합니다.
- 클라우드 스토리지, 메시지 버스 및 외부 시스템에서 수집
- DLT에서 변경 데이터 캡처(CDC)를 사용하여 원본 데이터의 변경 내용에 따라 테이블 업데이트
"Delta Live Tables는 Auto Loader보다 뛰어난 기능으로 파일을 훨씬 더 쉽게 읽을 수 있어 좋습니다. 45분 만에 스트리밍 파이프라인을 설정할 수 있었을 때는 충격에 가까웠죠."
— Kahveh Saramout, Labelbox 선임 데이터 엔지니어
비용 효율적인 지능형 데이터 변환
DLT는 단 몇 줄의 코드만으로 스트리밍 또는 배치 데이터 파이프라인을 빌드하고 실행하는 가장 효율적인 방법을 결정하여 복잡성을 최소화하고 가격 대비 성능(Databricks 기준 약 4배)을 최적화합니다.
- Medallion 아키텍처를 빠르고 간단하게 구현하고 스트리밍 테이블과 구체화된 뷰 통합
- expectations와 같은 특성을 사용하여 데이터 품질을 최적화하여 비즈니스 가치 극대화
- continuous 또는 triggered 모드로 파이프라인을 새로 고침하여 데이터를 최신으로 유지
"Delta Live Tables는 우리 팀이 수조 단위에 이르는 엄청난 규모의 데이터를 관리하는 데 드는 시간과 노력을 절약하고 AI 엔지니어링 기능을 지속적으로 개선하는 데 도움이 되었습니다. . . Databricks는 ETL 및 데이터 웨어하우스 시장을 뒤흔들고 있습니다."
— Dan Jeavons, Shell 데이터 사이언스 총괄
간단한 파이프라인 설정 및 유지 관리
DLT 파이프라인은 본질적인 운영 복잡성을 거의 대부분 자동화하여 ETL 개발을 단순화합니다. DLT 파이프라인을 통해 엔지니어는 파이프라인을 운영하고 유지 관리하는 대신 고품질 데이터를 제공하는 데 집중할 수 있습니다. DLT는 다음을 자동으로 처리합니다.
- 작업 오케스트레이션
- CI/CD 및 버전 관리
- 비용 절감을 위한 컴퓨팅 인프라 자동 확장
- 이벤트 로그에서 메트릭을 통한 모니터링
- 오류 처리 및 실패 복구
"동적 스키마 관리 및 stateful/stateless 변환과 같은 복잡한 아키텍처는 기존의 멀티클라우드 데이터 웨어하우스 아키텍처로 구현하기가 어려웠습니다. 이제 데이터 사이언티스트와 데이터 엔지니어 모두 진입 장벽 없이 확장 가능한 Delta Live Tables를 사용하여 어떤 변경도 구현할 수 있습니다."
— Sai Ravuru, JetBlue 데이터 사이언스 및 분석 부문 선임 관리자
차세대 스트림 처리 엔진
Spark Structured Streaming은 DLT 파이프라인 스트림을 지원하는 핵심 기술로, 배치 및 스트림 처리를 위한 통합 API를 제공합니다. DLT 파이프라인은 Spark Structured Streaming 고유의 1초 미만의 레이턴시와 기록적인 가격 대비 성능을 활용합니다. Spark Structured Streaming을 사용하여 자체 성능 스트리밍 파이프라인을 수동으로 빌드할 수도 있지만 DLT 파이프라인을 사용하면 운영 오버헤드가 자동으로 관리되므로 가치 창출 시간을 단축하고, 개발 속도를 높이고, TCO를 낮출 수 있습니다.
"DLT를 확장하기 위해 아무것도 할 필요가 없었습니다. 더 많은 데이터를 제공하더라도 시스템은 이를 성공적으로 처리합니다. 시스템에 어떤 데이터를 입력하더라도 처리할 수 있다는 자신감을 얻게 되었습니다.
— Chris Inkpen 박사, Honeywell 글로벌 솔루션 아키텍트
Delta Live Tables 파이프라인 및 "맞춤형" Spark Structured Streaming 파이프라인
Spark Structured Streaming pipelines | DLT pipelines | ||
---|---|---|---|
Databricks 레이크하우스 플랫폼에서 실행 | |||
Spark Structured Streaming 엔진 기반 | |||
Databricks Workflows를 통한 오케스트레이션 | |||
클라우드 스토리지에서 메시지 버스에 이르기까지 수십 개의 소스에서 수집 | |||
데이터 흐름 오케스트레이션 | 수동 | 자동화 | |
데이터 품질 검사 및 보증 | 수동 | 자동화 | |
오류 처리 및 실패 복구 | 수동 | 자동화 | |
CI/CD 및 버전 관리 | 수동 | 자동화 | |
컴퓨팅 자동 확장 |