주요 컨텐츠로 이동

Databricks Workflows에서 반복 작업 간소화

작업 루핑으로 복잡하고 반복적인 워크플로우 간소화
Anthony Podgorsak
Ezana Tadese
Gabor Ratky

in

이 포스트 공유하기

Databricks Workflows의 Tasks에 For Each를 사용한 반복 기능이 일반 출시(GA) 되었습니다! 이 새로운 태스크 유형은 런타임에 정의된 동적 매개 변수 세트를 루핑하여 반복적인 태스크를 자동화하는 것을 이전보다 더 쉽게 만들어 주며, Databricks Workflows향상된 제어 흐름 기능에 대한 지속적인 투자의 일부입니다. For Each를 통해 워크플로우의 효율성과 확장성을 간소화하여 복잡한 논리보다는 인사이트에 집중할 수 있는 시간을 확보할 수 있습니다.

루핑으로 반복 작업 처리를 획기적으로 개선

복잡한 워크플로 관리에는 종종 여러 데이터 세트를 처리하거나 여러 작업을 수행하는 반복 작업이 포함됩니다. 루핑을 지원하지 않는 데이터 오케스트레이션 도구는 여러 가지 문제를 제기합니다.

복잡한 논리 단순화

이전에는 사용자가 반복적인 태스크를 관리하기 위해 수동적이고 유지 관리가 어려운 로직을 사용했습니다(위 그림 참조). 이 방법에서는 종종 각 작업별로 태스크를 생성하, 워크플로우를 부풀리고 오류가 발생하기 쉽습니다.

For Each를 사용하면 이전에 필요한 복잡한 논리가 크게 단순화됩니다. 사용자는 복잡한 스크립트에 의존하지 않고 워크플로우 내에서 루프를 쉽게 정의할 수 있으므로 작성 시간을 절약할 수 있습니다. 이렇게 하면 워크플로우 설정 프로세스가 간소화되고 오류 가능성이 줄어들어 워크플로우가 더 유지 관리 가능하고 효율적이 됩니다. 다음 예에서는 100개국에서 판매 데이터를 처리한 후 다음 단계로 집계합니다.

  1. 판매 데이터 수집,
  2. For Each를 사용하여 100개국에서 데이터 처리
  3. 데이터 집계 및 판매 모델 학습.

동적 매개 변수로 향상된 유연성

For Each가 없다면 사용자의 워크플로우 활용은 매개 변수가 자주 변경되지 않는 시나리오로 제한될 것입니다. For Each를 사용하면 런타임에 정의된 동적 매개 변수를 루핑하여 태스크 값으로 전달할 수 있으므로 하드 코딩의 필요성이 줄어듭니다. 아래에서 노트북 태스크의 매개 변수가 동적으로 정의되고 For Each 루프에 전달되는 것을 볼 수 있습니다(이제 일반 출시된 서버리스 컴퓨팅을 사용하는 것도 확인할 수 있습니다!).

효율적인 동시 처리

For Each는 진정한 동시 컴퓨팅을 지원하여 다른 주요 오케스트레이션 도구와 차별화됩니다. For Each를 사용하면 사용자는 병렬로 실행할 태스크 수를 지정하여 종단 간 실행 시간을 줄여 효율성을 개선할 수 있습니다. 아래에서 For Each 루프의 동시성이 10으로 설정되었으며 최대 100개의 동시 루프를 지원하는 것을 볼 수 있습니다. 기본적으로 동시성은 1로 설정되고 태스크는 순차적으로 실행됩니다.

쉬운 디버깅

루핑이 지원되지 않는 경우 워크플로우 디버깅 및 모니터링이 더 어려워집니다. 태스크가 많은 워크플로우는 디버깅이 어려워 가동 시간이 줄어듭니다.

For Each 내에서 repair를 지원하면 디버깅 및 모니터링이 훨씬 원활해집니다. 하나 이상의 반복이 실패하면 실패한 반복만 다시 실행되고 전체 루프는 다시 실행되지 않습니다. 이렇게 하면 컴퓨팅 비용과 시간을 절약하여 효율적인 워크플로우를 유지 관리하는 것이 쉬워집니다. 워크플로우 실행에 대한 향상된 가시성으로 인해 문제 해결이 더 빠르고 가동 중지 시간이 줄어들어 궁극적으로 생산성과 적시 통찰력이 향상됩니다. 아래에서는 위의 예의 최종 출력을 보여줍니다.

이러한 향상된 기능은 데이터 인텔리전스 플랫폼의 오케스트레이션을 위한 Databricks Workflows의 광범위한 기능 세트를 더욱 확장하여 사용자 경험을 크게 개선하고 고객 워크플로우를 더 효율적이고 유연하며 관리 가능하게 만듭니다.

시작하기

For Each를 사용하여 워크플로우를 간소화하고 데이터 작업에 더욱 속도를 내보세요!

Databricks Workflows UI에서 다양한 태스크 유형을 구성하는 방법에 대해 자세히 알아 보려면 제품 문서를 참조하세요.

 

(번역: Youngkyong Ko)  Original Post

Databricks 무료로 시작하기

관련 포스트

What's new in Workflows?

August 22, 2024 작성자: Roland Fäustlin in
Databricks Workflows is the cornerstone of the Databricks Data Intelligence Platform, serving as the orchestration engine that powers critical data and AI workloads...

노트북, 워크플로우, Delta Live Tables를 위한 서버리스 컴퓨팅 일반 출시 발표

July 19, 2024 작성자: Bilal Aslam, Lucian Popa in
AWS와 Azure에서 노트북, 작업, 그리고 Delta Live Tables(DLT)를 위한 서버리스 컴퓨팅의 일반 출시(GA)을 발표하게 되어 기쁩니다. Databricks 고객들은 이미 Databricks SQL 과 Databricks...

데이터브릭스 LakeFlow 소개: 데이터 엔지니어링을 위한 통합 지능형 솔루션

July 5, 2024 작성자: Michael Armbrust, Bilal Aslam in
오늘, 프로덕션 데이터 파이프라인 구축과 운영에 필요한 모든 것이 포함된 새로운 솔루션 Databricks LakeFlow를 발표하게 되어 기쁩니다. 이 솔루션에는 SQL Server와 같은 데이터베이스와...
모든 플랫폼 포스트 보기