주요 컨텐츠로 이동

2025 DLT 업데이트: 지능형, 완전히 관리되는 데이터 파이프라인

확장된 Unity 카탈로그 통합, 기업 준비성, 그리고 레이크하우스 호환성

2025 DLT Update: Intelligent, fully governed data pipelines

Published: April 24, 2025

제품1분 이내 소요

Summary

  • 통합 거버넌스 & 보안 - Unity 카탈로그와의 DLT 통합이 이제 일반적으로 사용 가능해져, 세밀한 접근 제어, 데이터 라인리지, 행 수준 보안, 및 준수 강제가 가능해졌습니다.
  • 간소화된 파이프라인 관리 - 단일 DLT 파이프라인에서 여러 카탈로그와 스키마로 게시하여 복잡성과 인프라 비용을 줄입니다.
  • 향상된 관찰성 및 유연성 - 새로운 모니터링 및 관찰 기능, 그리고 Hive Metastore에서의 마이그레이션으로 효율성과 확장성이 향상됩니다.

지난 몇 달 동안, 우리는 DLT 파이프라인 을 더 빠르고, 더 지능적이며, 대규모로 관리하기 쉽게 만들었습니다. DLT는 이제 어떤 규모에서든 신뢰할 수 있는 데이터 파이프라인을 구축하고 운영하기 위한 간결하고 고성능의 기반을 제공합니다.

우선, DLT 파이프라인이 이제 Unity Catalog (UC)와 완벽하게 통합되었다는 소식을 전하게 되어 매우 기쁩니다. 이를 통해 사용자는 여러 카탈로그와 스키마에서 읽고 쓸 수 있으며, Databricks 데이터 인텔리전스 플랫폼 전반에 걸쳐 행 수준 보안(RLS)과 열 마스킹(CM)을 일관되게 적용할 수 있습니다.

또한, 우리는 최근에 강화된 성능, 관찰 가능성, 그리고 생태계 지원 을 포함하여 DLT를 민첩한 개발, 자동화된 운영, 그리고 신뢰할 수 있는 성능을 추구하는 팀들에게 선택받는 파이프라인 도구로 만드는 것에 대해 기쁘게 생각합니다.

이 업데이트를 탐색하려면 계속 읽거나, 개별 주제를 클릭하여 더 깊게 들어가십시오:

Unity 카탈로그 통합

"DLT를 Unity 카탈로그와 통합하면서 우리의 데이터 엔지니어링이 혁명적으로 변화했습니다. 이는 흡수와 변환을 위한 견고한 프레임워크를 제공합니다. 그것의 선언적 접근법은 중앙 집중식 개요를 유지하면서 분산 설정에서 확장 가능하고 표준화된 워크플로우를 가능하게 합니다. 강화된 거버넌스, 세밀한 접근 제어, 데이터 라인니지는 안전하고 효율적인 파이프라인 관리를 보장합니다. 단일 DLT 파이프라인에서 여러 카탈로그와 스키마로 게시하는 새로운 기능은 데이터 관리를 더욱 간소화하고 비용을 절감합니다."
— 마르텐 데 하스, 제품 아키텍트, 하이네켄 인터내셔널

DLT와 UC의 통합은 데이터가 데이터 파이프라인의 다양한 단계에서 일관되게 관리되도록 보장하며, 이로 인해 파이프라인의 효율성이 향상되고, 더 나은 계보와 규제 요구 사항 준수, 그리고 더 신뢰할 수 있는 데이터 작업이 가능해집니다. 이 통합에서의 주요 개선 사항은 다음과 같습니다:

  • 단일 DLT 파이프라인에서 여러 카탈로그와 스키마로 게시할 수 있는 기능
  • 행 단위 보안 및 열 마스킹 지원
  • Hive Metastore 마이그레이션

단일 DLT 파이프라인에서 여러 카탈로그와 스키마로 게시

데이터 관리를 간소화하고 파이프라인 개발을 최적화하기 위해, Databricks는 이제 단일 DLT 파이프라인 내에서 여러 카탈로그와 스키마에 테이블을 게시할 수 있게 되었습니다. 이 개선 사항은 문법을 단순화하고 LIVE 키워드의 필요성을 제거하며, 사용자가 여러 파이프라인을 하나로 쉽게 통합함으로써 인프라 비용, 개발 시간, 모니터링 부담을 줄입니다. 자세한 블로그 게시물에서 더 자세히 알아보세요.

행 수준 보안 및 열 마스킹 지원

DLT와 Unity Catalog의 통합에는 DLT 파이프라인에서 게시된 데이터셋에 대한 행 단위 보안 (RLS) 및 열 마스킹 (CM)을 포함한 세밀한 액세스 제어가 포함되어 있습니다. 관리자는 행 필터를 정의하여 행 수준에서 데이터 가시성을 제한하고, 열 마스크를 동적으로 보호하여 민감한 정보를 보호하며, 강력한 데이터 거버넌스, 보안, 및 준수를 보장할 수 있습니다.

주요 장점

  • 정밀 접근 제어: 관리자는 행 수준 및 열 기반 제한을 강제하여 사용자가 접근 권한이 있는 데이터만 볼 수 있도록 할 수 있습니다.
  • 데이터 보안 강화: 사용자 역할에 따라 민감한 데이터를 동적으로 마스킹하거나 필터링하여 무단 접근을 방지할 수 있습니다.
  • 강제 거버넌스: 이러한 제어는 내부 정책 및 외부 규정, 예를 들어 GDPR 및 HIPAA와 같은 규정을 준수하는 데 도움이 됩니다.

이러한 정책을 정의하는 방법에 대한 여러 SQL 사용자 정의 함수 (UDF) 예제가 문서에 있습니다.

Hive Metastore (HMS)에서 Unity Catalog (UC)로 이전

Hive Metastore (HMS)에서 Unity 카탈로그 (UC)로 DLT 파이프라인을 이동시키는 것은 거버넌스를 간소화하고, 보안을 강화하며, 다중 카탈로그 지원을 가능하게 합니다. 이 마이그레이션 과정은 간단합니다—팀들은 기존 파이프라인을 복제하여 운영을 방해하거나 구성을 다시 만들 필요 없이 진행할 수 있습니다. 복제 과정은 파이프라인 설정을 복사하고, 물리화 뷰(MVs)와 스트리밍 테이블(STs)을 UC에서 관리하도록 업데이트하며, 데이터 손실 없이 STs가 처리를 재개하도록 보장합니다. 이 마이그레이션에 대한 모범 사례는 여기에서 완전히 문서화되어 있습니다.

주요 장점

  • 매끄러운 전환 - 파이프라인 구성을 복사하고 테이블을 UC 요구 사항에 맞게 업데이트합니다.
  • 최소한의 다운타임 - ST는 수동 개입 없이 마지막 상태에서 처리를 재개합니다.
  • 향상된 거버넌스 - UC는 보안, 접근 제어, 데이터 유래 추적을 개선합니다.

이전이 완료되면 원래의 파이프라인과 새로운 파이프라인 모두 독립적으로 실행할 수 있어, 팀이 자신들의 속도로 UC 채택을 검증할 수 있습니다. 이는 현재 DLT 파이프라인을 마이그레이션하는 가장 좋은 방법입니다. 비록 데이터 복사가 필요하긴 하지만, 올해 말에는 복사 없는 마이그레이션을 위한 API를 도입할 계획입니다—업데이트를 기다려 주세요.

기타 주요 기능 및 개선 사항

더욱 원활하고 빠른 개발 경험

우리는 지난 몇 달 동안 DLT의 성능을 크게 향상시켜 더 빠른 개발과 더 효율적인 파이프라인 실행을 가능하게 했습니다.

먼저, 우리는 DLT의 검증 단계를 80%* 가속화했습니다. 검증 중에는 DLT가 스키마, 데이터 타입, 테이블 접근 등을 확인하여 실행이 시작되기 전에 문제를 발견합니다. 두 번째로, 서버리스 DLT를 위한 서버리스 컴퓨팅 초기화 시간을 줄였습니다.

결과적으로, DLT 파이프라인의 반복적인 개발과 디버깅이 이전보다 빨라졌습니다.

*평균적으로, 내부 벤치마크에 따르면

DLT 싱크 확장: foreachBatch를 사용하여 모든 목적지에 쓰기

DLT Sink API를 기반으로, 우리는 foreachBatch 지원을 통해 Delta Live Tables의 유연성을 더욱 확장하고 있습니다. 이 개선 사항은 사용자가 스트리밍 데이터를 Kafka와 Delta 테이블을 넘어서 어떤 배치 호환 싱크에도 쓸 수 있게 하여 새로운 통합 가능성을 제공합니다.

foreachBatch를 사용하면 스트리밍 쿼리의 각 마이크로 배치를 배치 변환을 사용하여 처리할 수 있어, Delta Lake에서의 MERGE INTO 작업과 Cassandra 또는 Azure Synapse Analytics와 같은 네이티브 스트리밍 지원이 부족한 시스템에 쓰는 것과 같은 강력한 사용 사례를 가능하게 합니다. 이것은 DLT Sinks의 범위를 확장하여, 사용자들이 자신들의 전체 생태계에 걸쳐 데이터를 원활하게 라우팅할 수 있도록 보장합니다. 문서 여기에서 더 많은 세부 사항을 검토할 수 있습니다.

주요 이점:

  • 제한 없는 싱크 지원 - Kafka와 Delta를 넘어 거의 모든 배치 호환 시스템에 스트리밍 데이터를 쓸 수 있습니다.
  • 더 유연한 변환 - 스트리밍 모드에서 기본적으로 지원되지 않는 MERGE INTO 및 기타 배치 작업을 사용합니다.
  • 다중 싱크 쓰기 - 처리된 데이터를 여러 목적지로 보내어 더 넓은 하류 통합을 가능하게 합니다.

DLT 관찰 가능성 향상

사용자는 이제 쿼리 히스토리 를 DLT 파이프라인에 대해 접근할 수 있어, 쿼리를 디버그하고, 성능 병목 현상을 식별하고, 파이프라인 실행을 최적화하는 데 도움이 됩니다. Public Preview에서 사용 가능한 이 기능은 사용자가 Query History UI, 노트북, 또는 DLT 파이프라인 인터페이스를 통해 쿼리 실행 세부 정보를 검토할 수 있게 합니다. DLT 특정 쿼리를 필터링하고 상세한 쿼리 프로필을 보면서, 팀은 파이프라인 성능에 대한 더 깊은 통찰력을 얻고 효율성을 향상시킬 수 있습니다.

이벤트 로그 는 이제 UC에 Delta 테이블로 게시될 수 있어, 파이프라인을 모니터링하고 디버깅하는 데 더욱 편리한 방법을 제공합니다. 이벤트 데이터를 구조화된 형식으로 저장함으로써, 사용자는 SQL 및 기타 도구를 활용하여 로그를 분석하고, 성능을 추적하고, 문제를 효율적으로 해결할 수 있습니다.

우리는 또한 DLT 파이프라인에 대해 Run As 를 도입하여, 사용자가 파이프라인이 실행되는 서비스 주체 또는 사용자 계정을 지정할 수 있게 했습니다. 파이프라인 실행을 파이프라인 소유자로부터 분리함으로써 보안성과 운영 유연성이 향상됩니다.

마지막으로, 사용자는 이제 실행자 신원 및 태그를 포함한 다양한 기준에 따라 파이프라인을 필터링 할 수 있습니다. 이러한 필터는 파이프라인 관리와 추적을 더 효율적으로 할 수 있게 하며, 사용자가 관심 있는 파이프라인을 빠르게 찾아 관리할 수 있도록 합니다.

이러한 개선 사항들은 파이프라인의 관찰 가능성과 관리 가능성을 향상시켜, 조직이 파이프라인이 의도한 대로 운영되고 운영 기준과 일치하는지 확인하는 데 도움이 됩니다.

주요 장점

  • 더 깊은 가시성 & 디버깅 - 이벤트 로그를 Delta 테이블로 저장하고 쿼리 이력에 접근하여 성능을 분석하고 문제를 해결하며 파이프라인 실행을 최적화합니다.
  • 강화된 보안 및 제어 - Run As 를 사용하여 파이프라인 실행을 소유자와 분리하여 보안성과 운영 유연성을 향상시킵니다.
  • 더 나은 조직화 및 추적 - 비용 분석 및 효율적인 관리를 위해 파이프라인에 태그를 붙이고, 더 나은 감독을 위한 새로운 필터링 옵션과 쿼리 이력을 사용하세요.

전용 액세스 모드에서 스트리밍 테이블과 머티리얼라이즈드 뷰 읽기

이제 Streaming Tables (STs)와 Materialized Views (MVs)를 전용 접근 모드에서 읽을 수 있는 기능을 도입하고 있습니다. 이 기능은 파이프라인 소유자와 필요한 SELECT 권한을 가진 사용자가 개인 전용 클러스터에서 직접 STs와 MVs를 쿼리할 수 있게 합니다.

이 업데이트는 아직 공유 클러스터로 업그레이드되지 않은 지정된 클러스터에 ST와 MV 접근을 열어 워크플로우를 단순화합니다. 전용 액세스 모드에서 STs와 MVs에 액세스할 수 있도록 하여 사용자는 격리된 환경에서 작업할 수 있습니다. 이는 디버깅, 개발, 개인 데이터 탐색에 이상적입니다.

주요 장점

  • 개발 간소화: 클러스터 유형 간에 파이프라인을 테스트하고 검증합니다.
  • 보안 강화: 접근 제어 및 준수 요구 사항을 강제합니다.

기타 개선 사항

사용자들은 이제 APPLY CHANGES 명령에 의해 대상으로 지정된 ST에서 변경 데이터 피드(CDF)를 읽을 수 있습니다. 이 개선 사항은 행 수준 변경의 추적 및 처리를 단순화하여, 모든 데이터 수정이 효과적으로 캡처되고 처리되도록 보장합니다.

또한, Liquid Clustering 은 이제 Databricks 내의 ST와 MV 모두에서 지원됩니다. 이 기능은 지정된 열에 따라 데이터 클러스터링을 동적으로 관리하여 데이터 조직화와 쿼리를 향상시키며, 이는 일반적으로 24시간마다 수행되는 DLT 유지 관리 주기 동안 최적화됩니다.

결론

DLT/UC 통합을 통해 지능형 데이터 엔지니어링의 모범 사례를 통합 레이크하우스 거버넌스와 완전히 일치시킴으로써, 규정 준수를 간소화하고 데이터 보안을 강화하며 인프라 복잡성을 줄입니다. 팀은 이제 성능을 희생하지 않고 강화된 접근 제어, 개선된 관찰 가능성, 그리고 더 큰 유연성을 가지고 데이터 파이프라인을 관리할 수 있습니다. 만약 당신이 현재 DLT를 사용하고 있다면, 이것이 당신의 파이프라인을 미래에 대비하는 가장 좋은 방법입니다. 그렇지 않다면, 이 업데이트가 데이터 팀을 위한 DLT 사용자 경험을 극대화하기 위한 우리의 노력을 당신에게 보여주기를 바랍니다.

문서를 탐색 하여 시작하고, 위에 나열된 로드맵 개선 사항을 기다려 주세요. 귀하의 피드백을 기다리고 있습니다!

 

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

게시물을 놓치지 마세요

관심 있는 카테고리를 구독하고 최신 게시물을 받은편지함으로 받아보세요