Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

실용적인 ETL-First 및 BI-First 마이그레이션 전략 가이드

Published: January 27, 2025

솔루션1분 이내 소요

작성자: 자이민 샤, George Komninos, 소함 바트, Kanad Sharma

Summary

마이그레이션 전략
* ETL 우선
* BI 우선 - 마이그레이션을 단순화하여 머리를 돌리세요!

(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)

우리의 이전 블로그에서는 복잡한 데이터 웨어하우스 마이그레이션을 Databricks로 실행하기 위해 우리의 전문 서비스 팀이 권장하는 방법론을 살펴보았습니다. 이러한 프로젝트 중에 발생할 수 있는 복잡성과 도전 과제를 강조하고, 마이그레이션 전략 및 설계 단계에서 중요한 결정을 내리는 것의 중요성을 강조했습니다. 이러한 선택은 마이그레이션의 실행과 목표 데이터 플랫폼의 아키텍처에 모두 큰 영향을 미칩니다. 이 포스트에서는 이러한 결정에 대해 자세히 살펴보고, 마이그레이션 과정 전반에 걸쳐 효과적인 선택을 내릴 수 있도록 필요한 주요 데이터 포인트를 개요화합니다.

마이그레이션 전략: ETL 우선 또는 BI 우선?

마이그레이션 전략을 확립하고 고수준의 목표 데이터 아키텍처를 설계한 후, 다음 결정사항은 어떤 작업부하를 먼저 마이그레이션할 것인지 결정하는 것입니다. 두 가지 주요 접근법이 있습니다:

ETL-First 마이그레이션 (Back-to-Front)
BI-첫 번째 마이그레이션 (프론트 투 백)

ETL-첫 번째 마이그레이션: 기초 구축

ETL-first 또는 back-to-front 마이그레이션은 포괄적인 Lakehouse 데이터 모델을 만드는 것으로 시작하여, Bronze, Silver, 그리고 Gold 계층을 진행합니다. 이 접근법은 Unity Catalog를 이용한 데이터 거버넌스 설정, LakeFlow Connect와 같은 도구를 이용한 데이터 수집, 변경 데이터 캡처 (CDC)와 같은 기법 적용, 그리고 기존 ETL 워크플로우와 저장 프로시저를 Databricks ETL로 변환하는 것을 포함합니다. 철저한 테스트 후, BI 보고서는 재지정되고, AI/ML 생태계는 Databricks 플랫폼 위에 구축됩니다.

이 전략은 데이터의 자연스러운 흐름을 반영합니다 - 데이터를 생성하고 온보딩한 다음, 사용 사례 요구 사항에 맞게 변환합니다. 이를 통해 신뢰할 수 있는 파이프라인과 최적화된 Bronze 및 Silver 계층을 단계적으로 배포할 수 있으며, 일관성을 최소화하고 BI를 위한 데이터 품질을 향상시킵니다. 이것은 새로운 Lakehouse 데이터 모델을 처음부터 설계하거나, 데이터 메시를 구현하거나, 데이터 도메인을 재설계하는 데 특히 유용합니다.

그러나 이 접근법은 일반적으로 이러한 이니셔티브를 자금 조달하는 비즈니스 사용자들에게 보이는 결과를 지연시킵니다. BI를 마지막에 마이그레이션하면 성능 향상, 인사이트, 예측 분석 및 GenAI 프로젝트 지원에 대한 개선이 몇 달 동안 나타나지 않을 수 있습니다. 마이그레이션 중에 비즈니스 요구사항이 변경되면 이동하는 목표점이 생겨 프로젝트의 추진력과 조직의 참여도에 영향을 미칠 수 있습니다. 전체 이점은 전체 파이프라인이 완료되고 Silver 및 Gold 계층의 주요 주제 영역이 구축되면서만 실현됩니다.

BI-First 마이그레이션: 즉각적인 가치 제공

BI-first 또는 front-to-back 마이그레이션은 소비 계층을 우선시합니다. 이 접근 방식은 사용자에게 새로운 데이터 플랫폼에 대한 초기 접근을 제공하며, 사용 사례 또는 도메인별로 단계적으로 소비 계층을 채우는 워크플로우를 마이그레이션하면서 그 기능을 보여줍니다.

BI-First 마이그레이션을 가능하게 하는 주요 제품 기능

Databricks 플랫폼의 두 가지 주요 기능인 Lakehouse Federation 과 LakeFlow Connect는 BI-first 이전 접근법을 매우 실용적이고 영향력있게 만듭니다. 이러한 기능들은 BI 시스템을 현대화하는 과정을 간소화하면서 이전 작업에서의 민첩성, 보안성, 확장성을 보장합니다.

Lakehouse Federation: 분산된 데이터 소스에 대한 통합 접근
Lakehouse Federation은 조직이 여러 분산된 기업 데이터 웨어하우스 (EDWs) 및 운영 시스템에 대한 데이터를 원활하게 접근하고 쿼리할 수 있게 합니다. Teradata, Oracle, SQL Server, Snowflake, Redshift, BigQuery를 포함한 주요 데이터 플랫폼과의 통합을 지원합니다.
LakeFlow Connect:
LakeFlow Connect는 Change Data Capture (CDC) 기술을 활용하여 데이터가 취득되고 동기화되는 방식을 혁신합니다. 이 기능은 실시간, 증분 데이터 수집을 Databricks로 가능하게 하여, 플랫폼이 항상 최신 정보를 반영하도록 합니다.

BI-첫 번째 마이그레이션을 위한 패턴

Lakehouse Federation과 LakeFlow Connect를 활용하여, 조직은 BI-first 마이그레이션에 대해 두 가지 독특한 패턴을 구현할 수 있습니다:

연합, 그 후 마이그레이션:
빠르게 기존 EDWs를 연합하고, Unity 카탈로그를 통해 테이블을 공개하고, 시스템 간 분석을 가능하게 합니다. Delta Lake에 필요한 데이터를 점진적으로 수집하고, Gold layer 집계를 구축하기 위해 ETL을 수행하고, BI 보고서를 Databricks로 재지정합니다.
복제, 그리고 마이그레이션:
CDC 파이프라인을 사용하여 운영 데이터와 EDW 데이터를 Bronze 계층으로 복제합니다. Delta Lake에서 데이터를 변환하고 BI 워크플로우를 현대화하여 ML 및 GenAI 프로젝트를 위한 고립된 데이터를 해제합니다.

두 패턴 모두 애자일하고 단계적인 접근법으로 사례별로 구현할 수 있습니다. 이는 초기 비즈니스 가치를 보장하고, 조직의 우선 순위와 일치하며, 미래 프로젝트에 대한 청사진을 설정합니다. 기존의 ETL은 나중에 마이그레이션 될 수 있으며, 데이터 소스를 그들의 진정한 출처로 전환하고 기존의 EDW 시스템을 퇴역시킵니다.

결론

이러한 마이그레이션 전략은 Databricks를 사용하여 데이터 플랫폼을 현대화하는 명확한 경로를 제공합니다. Unity Catalog, Lakehouse Federation, LakeFlow Connect와 같은 도구를 활용하여 아키텍처와 전략을 비즈니스 목표와 일치시키면서 고급 분석 기능을 활성화할 수 있습니다. ETL-first 또는 BI-first 마이그레이션을 우선시하든, 핵심은 증분 가치를 제공하고 변혁 여정 동안 모멘텀을 유지하는 것입니다.

다음은 무엇인가요?

January 31, 2025/1분 이내 소요

DeepSeek R1 on Databricks

Continuous Environmental Monitoring Using the New transformWithState API

July 30, 2025/3분 소요

Databricks로의 마이그레이션 탐색: 아키텍처와 전략적 접근법

실용적인 ETL-First 및 BI-First 마이그레이션 전략 가이드

Summary

마이그레이션 전략: ETL 우선 또는 BI 우선?

ETL-첫 번째 마이그레이션: 기초 구축

BI-First 마이그레이션: 즉각적인 가치 제공

BI-First 마이그레이션을 가능하게 하는 주요 제품 기능

BI-첫 번째 마이그레이션을 위한 패턴

결론

Databricks Migration Strategy: Lessons Learned

다음은 무엇인가요?

DeepSeek R1 on Databricks

새로운 transformWithState API를 사용한 지속적인 환경 모니터링

Summary

마이그레이션 전략: ETL 우선 또는 BI 우선?

ETL-첫 번째 마이그레이션: 기초 구축

BI-First 마이그레이션: 즉각적인 가치 제공

BI-First 마이그레이션을 가능하게 하는 주요 제품 기능

BI-첫 번째 마이그레이션을 위한 패턴

결론

Databricks Migration Strategy: Lessons Learned

게시물을 놓치지 마세요

Sign up

다음은 무엇인가요?

DeepSeek R1 on Databricks

새로운 transformWithState API를 사용한 지속적인 환경 모니터링