주요 컨텐츠로 이동

Databricks Workflows를 이용한 레이크하우스 오케스트레이션

이 포스트 공유하기

다양한 산업 분야에서 많은 기업들이 레이크하우스 아키텍처를 채택하여  데이터, 분석 및 AI 워크로드에 통합 플랫폼으로 사용하고 있습니다. 워크로드를 프로덕션 환경으로 옮길 때, 워크로드를 오케스트레이션하는 방식에 따라  데이터 및 AI 솔루션에서 얻을 수 있는 가치가 크게 달라집니다. 오케스트레이션을 올바르게 수행하면 데이터 팀의 생산성을 향상하고 혁신을 가속화할 수 있으며, 더 나은 인사이트와 통합 가시성을 제공하고, 마지막으로 파이프라인의 안정성과 리소스 활용도를 개선할 수 있습니다.

이러한 오케스트레이션의 모든 잠재적 이점은 데이터브릭스 레이크하우스 플랫폼을 선택한 모든 고객이 활용할 수 있지만, 레이크하우스와 잘 통합된 오케스트레이션 도구를 선택하는 경우에 더욱 빛을 발하게 됩니다. Databricks Workflows는 레이크하우스를 위한 통합 오케스트레이션 솔루션으로, 다른 대안과 비교할 때 최고의 선택입니다.

적합한 오케스트레이션 도구 선택하기

데이터 엔지니어링 팀은 워크로드 오케스트레이션을 구현하는 방법을 고려할 때 여러 가지 옵션을 선택할 수 있습니다. 어떤 팀은 자체 오케스트레이션 도구를 사내에서 구축하기도 하고, 다른 팀은 외부 오픈 소스 도구를 선호하거나 클라우드 제공업체가 기본으로 제공하는 서비스를 선택합니다. 세가지 모두 유효한 선택지이지만, 레이크하우스 플랫폼에서 워크로드를 오케스트레이션할 때 몇 가지 분명한 단점이 있습니다:

사용자가 느끼는 복잡성 증가 - 일부 오케스트레이션 도구의 경우 워크플로우를 정의하는 것이 복잡할 수 있으며, 선택한 도구에 대한 전문 지식과 숙련이 요구될 수 있습니다. 예컨대 Apache Airflow의 경우, 워크플로우 작성과 관리에 익숙하지 않은 사용자에게는 가파른 학습 곡선이 있습니다. DAG(방향성 비순환 그래프), 연산자, 작업 및 연결을 프로그래밍 방식으로 생성하는 것은 처음에는 부담스러울 수 있으며, Airflow를 효과적으로 사용하는 데 능숙해지기까지 상당한 시간과 노력이 필요합니다. 그 결과, 데이터 분석가와 데이터 과학자가 스스로 워크플로를 정의하고 관리하기가 어려워져 오케스트레이션을 전문으로 하는 데이터 엔지니어링 팀에 의존하게 되는 경향이 있습니다. 이러한 의존성은 혁신 속도를 늦추고 데이터 엔지니어의 부담을 가중시킵니다. 또한, 외부 도구는 사용자를 데이터브릭스 환경에서 벗어나게 하여 불필요한 "컨텍스트 전환"과 추가적인 마찰로 인해 일상적인 작업 속도를 저하시킵니다.

모니터링과 가시성 제약 - 오케스트레이션 도구를 선택할 때 가장 중요한 요소는 사용자에게 제공하는 가시성의 수준입니다. 특히 신속한 장애 식별이 중요한 프로덕션 환경에서는 파이프라인 모니터링이 매우 중요합니다. 워크로드가 실행되는 데이터 플랫폼 외부에서 작동하는 오케스트레이션 도구는 일반적으로 얕은 수준의 가시성만 제공할 수 있습니다. 워크플로우에 장애가 발생했다는 것은 알 수 있지만, 어떤 특정 작업이 장애를 일으켰는지 또는 왜 장애가 발생했는지에 대한 정보가 충분하지 않을 수 있습니다. 많은 오케스트레이션 도구들이 기본적인 모니터링 및 로깅 기능을 제공하지만, 복잡한 워크플로우의 경우 문제 해결 및 디버깅이 어려울 수 있습니다. 종속성을 추적하고, 데이터 품질 문제를 식별하고, 오류를 관리하려면 추가적인 노력과 사용자 지정이 필요할 수 있습니다. 이로 인해 문제 해결이 어려워지고 문제가 발생했을 때 팀이 신속하게 복구하지 못하게 됩니다.

프로덕션 환경에서 낮은 신뢰성과 비효율성 - 사내에서 구축한 오케스트레이션 솔루션이나 전용 클라우드 인프라에 배포된 외부 도구를 관리하려면 인프라 비용 외에 유지보수 비용이 많이 들고 장애와 다운타임이 발생하기 쉽습니다. 예를 들어 Airflow는 대규모 워크플로우를 효과적으로 처리하기 위해 자체 분산 인프라가 필요합니다. 특히 사전 전문 지식이 없는 조직에서 추가 클러스터를 설정하고 관리하면 복잡성과 비용이 추가됩니다. 이는 파이프라인 장애가 데이터 소비자 또는 고객에게 실질적인 영향을 미치는 프로덕션 시나리오에서 특히 문제가 됩니다. 또한, 데이터 플랫폼과 잘 통합되지 않은 도구를 사용하면 비용과 성능에 직접적인 영향을 미치는 효율적인 리소스 할당 및 스케줄링을 위한 고급 기능을 활용할 수 없습니다.

레이크하우스의 오케스트레이터, Databricks Workflows

Databricks 레이크하우스 플랫폼에서 워크로드를 가장 잘 오케스트레이션하는 방법은 Databricks Workflows를 사용하는 것입니다. 레이크하우스와 긴밀하게 통합된 Databricks Workflows는 ETL 파이프라인, SQL 분석 및 BI 에서 머신러닝 학습, 모델 배포 및 추론까지 모든 워크로드를 오케스트레이션할 수 있는 완전 관리형 오케스트레이션 서비스입니다. 위에서 언급한 고려 사항들은 Databricks Workflows를 사용하면 해결될 수 있습니다:

모든 데이터 실무자를 위한 간편한 작성 - 새로운 워크플로우를 정의하는 작업 몇 번의 클릭만으로 Databricks UI에서 수행하거나 IDE를 통해 수행할 수 있습니다. 데이터 엔지니어, 데이터 분석가, 데이터 과학자 등 누구든 새로운 도구를 배우거나 다른 전문 팀에 의존하지 않고도 필요한 사용자 지정 워크플로우를 쉽게 작성하고 관리할 수 있습니다.

Data Practitioners

실행 가능한 인사이트를 제공하는 실시간 모니터링 - 레이크하우스에 기본으로 통합되어, 모든 워크플로우에서 실행중인 각 작업을 실시간으로 완벽하게 파악할 수 있습니다. 작업이 실패하면 자세한 정보를 제공하는 알림을 통해 즉시 알림을 받아 신속하게 문제를 해결하고 복구할 수 있습니다.

Real-time monitoring with actionable insights

프로덕션 환경에서 입증된 신뢰성 - Databricks Workflows는 완전 관리형 서비스이므로, 운영에 추가 비용이나 유지 관리가 필요하지 않습니다. Databricks Workflows는 99.95%의 uptime을 제공하여, 매일 수천 개의 기업들이 수백만 개의 프로덕션 워크로드를 실행하고 있습니다. 저렴한 job 클러스터를 활용하고 여러 task 간에 클러스터를 공유할 수 있어, 효율적으로 리소스를 활용하고 비용을 절감할 수 있습니다. 

1년동안 Databricks Workflows에 추가된 혁신

1년 전 Databricks Workflows를 발표한 이후, 데이터브릭스 사용자가 오케스트레이션된 워크플로우를 더 잘 제어하고, 더 많은 사용 사례를 처리하며, 더 나은 결과를 얻을 수 있도록 점점 더 많은 기능을 지원하게 되었습니다. 이러한 혁신 중 일부는 다음과 같습니다:

올바른 오케스트레이션

점점 더 많은 기업들이 데이터브릭스 레이크하우스에 데이터 및 AI 솔루션을 구축하고 Databricks Workflows의 장점을 활용하고 있습니다. 오케스트레이션을 잘 활용하고 있는 데이터브릭스 고객 사례들을 몇가지 소개합니다:

데이터 팀의 확장성을 지원하는 셀프 서비스 데이터 플랫폼 구축
세계 최대 식료품 및 소모품 소매업체 중 하나인 Ahold Delhaize는 데이터를 사용하여 고객이 잘 먹고, 시간을 절약하고, 더 나은 삶을 살 수 있도록 돕고 있습니다. 이 회사는 Azure Data Factory의 오케스트레이션을 사용해 왔으며, 모든 데이터 팀이 고유한 파이프라인을 쉽게 오케스트레이션할 수 있는 셀프 서비스 데이터 플랫폼을 구축하기 위해 Databricks Workflows로 옮겼습니다. 또한 자동화된 job 클러스터와 클러스터 재사용 기능을 활용하여 비용을 절감하는 동시에 배포 시간을 단축할 수 있었습니다.

ETL 오케스트레이션 간소화
YipitData는 수백 개의 투자 펀드와 혁신 기업에 정확하고 세분화된 인사이트를 제공합니다. 이러한 인사이트를 생성하려면 복잡한 ETL 파이프라인으로 수십억 개의 데이터 포인트를 처리해야 합니다. 이 회사는 데이터 엔지니어가 데이터브릭스 플랫폼 외부의 복잡한 외부 애플리케이션을 유지 관리하고 운영하는 데 상당한 시간을 할애해야 하는 등, 기존 Apache Airflow 오케스트레이터의 문제점에 직면해 있었습니다. 이 회사는 Databricks Workflows로 전환한 후, 사내 분석가들의 사용자 환경을 간소화하여 신규 사용자들이 더 쉽게 적응할 수 있었습니다.

사일로 해소와 더 쉬운 협업
Wood Mackenzie offers customized consulting and analysis services in the energy and natural resources sectors. Data pipelines that power these services ingest 12 Billion data points every week and consist of multiple stages, each having a different owner in the data team. By standardizing the way the team orchestrates these ETL pipelines using Databricks Workflows, the data team was able to introduce more automation that reduced the risk of potential issues, improve collaboration and incorporate CI/CD practices that added more reliability and improved productivity leading to cost savings and to 80-90% reduction in processing time. 에너지와 천연자원 부문에 맞춤형 컨설팅 및 분석 서비스를 제공합니다. 이러한 서비스를 지원하는 데이터 파이프라인은 매주 120억 개의 데이터 요소를 수집하며, 여러 단계로 구성되어 있고 각 단계마다 데이터 팀의 소유자가 다릅니다. 데이터 팀은 Databricks Workflows를 사용하여 이러한 ETL 파이프라인을 조율하는 방식을 표준화함으로써 더 많은 부분을 자동화할 수 있었고, 이를 통해 잠재적인 문제의 위험을 줄이고, 협업을 개선하고, CI/CD 절차를 통합하여 안정성을 높이고 생산성을 개선하였습니다. 이로써, 비용을 절감하고 처리 시간을 80~90%까지 단축할 수 있었습니다.

시작하기

Data and AI Summit 에서 

2023년 6월 26일부터 29일까지 샌프란시스코에서 열리는 Data and AI Summit 은 데이터 및 AI 커뮤니티의 최신 흐름에 대해 자세히 알아볼 수 있는 좋은 기회입니다. 특히 Databricks Workflows의 경우, 아래 세션에서 새로운 정보와 데모를 보고, 로드맵에서 예상되는 새로운 기능을 미리 살펴볼 수 있습니다:

오프라인 또는 온라인으로 참석하려면 지금 신청하세요!

Databricks 무료로 시작하기

관련 포스트

모든 플랫폼 블로그 포스트 보기