(이 글은 AI의 도움을 받아 번역되었습니다. 원문이 궁금하시다면 여기를 클릭해 주세요)
우리의 이전 블로그에서는 복잡한 데이터 웨어하우스 마이그레이션을 Databricks로 실행하기 위해 우리의 전문 서비스 팀이 권장하는 방법론을 살펴보았습니다. 이러한 프로젝트 중에 발생할 수 있는 복잡성과 도전 과제를 강조하고, 마이그레이션 전략 및 설계 단계에서 중요한 결정을 내리는 것의 중요성을 강조했습니다. 이러한 선택은 마이그레이션의 실행과 목표 데이터 플랫폼의 아키텍처에 모두 큰 영향을 미칩니다. 이 포스트에서는 이러한 결정에 대해 자세히 살펴보고, 마이그레이션 과정 전반에 걸쳐 효과적인 선택을 내릴 수 있도록 필요한 주요 데이터 포인트를 개요화합니다.
마이그레이션 전략을 확립하고 고수준의 목표 데이터 아키텍처를 설계한 후, 다음 결정사항은 어떤 작업부하를 먼저 마이그레이션할 것인지 결정하는 것입니다. 두 가지 주요 접근법이 있습니다:
ETL-first 또는 back-to-front 마이그레이션은 포괄적인 Lakehouse 데이터 모델을 만드는 것으로 시작하여, Bronze, Silver, 그리고 Gold 계층을 진행합니다. 이 접근법은 Unity Catalog를 이용한 데이터 거버넌스 설정, LakeFlow Connect와 같은 도구를 이용한 데이터 수집, 변경 데이터 캡처 (CDC)와 같은 기법 적용, 그리고 기존 ETL 워크플로우와 저장 프로시저를 Databricks ETL로 변환하는 것을 포함합니다. 철저한 테스트 후, BI 보고서는 재지정되고, AI/ML 생태계는 Databricks 플랫폼 위에 구축됩니다.
이 전략은 데이터의 자연스러운 흐름을 반영합니다 - 데이터를 생성하고 온보딩한 다음, 사용 사례 요구 사항에 맞게 변환합니다. 이를 통해 신뢰할 수 있는 파이프라인과 최적화된 Bronze 및 Silver 계층을 단계적으로 배포할 수 있으며, 일관성을 최소화하고 BI를 위한 데이터 품질을 향상시킵니다. 이것은 새로운 Lakehouse 데이터 모델을 처음부터 설계하거나, 데이터 메시를 구현하거나, 데이터 도메인을 재설계하는 데 특히 유용합니다.
그러나 이 접근법은 일반적으로 이러한 이니셔티브를 자금 조달하는 비즈니스 사용자들에게 보이는 결과를 지연시킵니다. BI를 마지막에 마이그레이션하면 성능 향상, 인사이트, 예측 분석 및 GenAI 프로젝트 지원에 대한 개선이 몇 달 동안 나타나지 않을 수 있습니다. 마이그레이션 중에 비즈니스 요구사항이 변경되면 이동하는 목표점이 생겨 프로젝트의 추진력과 조직의 참여도에 영향을 미칠 수 있습니다. 전체 이점은 전체 파이프라인이 완료되고 Silver 및 Gold 계층의 주요 주제 영역이 구축되면서만 실현됩니다.
BI-first 또는 front-to-back 마이그레이션은 소비 계층을 우선시합니다. 이 접근 방식은 사용자에게 새로운 데이터 플랫폼에 대한 초기 접근을 제공하며, 사용 사례 또는 도메인별로 단계적으로 소비 계층을 채우는 워크플로우를 마이그레이션하면서 그 기능을 보여줍니다.
Databricks 플랫폼의 두 가지 주요 기능인 Lakehouse Federation 과 LakeFlow Connect는 BI-first 이전 접근법을 매우 실용적이고 영향력있게 만듭니다. 이러한 기능들은 BI 시스템을 현대화하는 과정을 간소화하면서 이전 작업에서의 민첩성, 보안성, 확장성을 보장합니다.
Lakehouse Federation과 LakeFlow Connect를 활용하여, 조직은 BI-first 마이그레이션에 대해 두 가지 독특한 패턴을 구현할 수 있습니다:
두 패턴 모두 애자일하고 단계적인 접근법으로 사례별로 구현할 수 있습니다. 이는 초기 비즈니스 가치를 보장하고, 조직의 우선 순위와 일치하며, 미래 프로젝트에 대한 청사진을 설정합니다. 기존의 ETL은 나중에 마이그레이션 될 수 있으며, 데이터 소스를 그들의 진정한 출처로 전환하고 기존의 EDW 시스템을 퇴역시킵니다.
이러한 마이그레이션 전략은 Databricks를 사용하여 데이터 플랫폼을 현대화하는 명확한 경로를 제공합니다. Unity Catalog, Lakehouse Federation, LakeFlow Connect와 같은 도구를 활용하여 아키텍처와 전략을 비즈니스 목표와 일치시키면서 고급 분석 기능을 활성화할 수 있습니다. ETL-first 또는 BI-first 마이그레이션을 우선시하든, 핵심은 증분 가치를 제공하고 변혁 여정 동안 모멘텀을 유지하는 것입니다.