주요 컨텐츠로 이동

Databricks Workflows에서 반복 작업 간소화

작업 루핑으로 복잡하고 반복적인 워크플로우 간소화
Anthony Podgorsak
Ezana Tadese
Gabor Ratky
이 포스트 공유하기

Databricks Workflows의 Tasks에 For Each를 사용한 반복 기능이 일반 출시(GA) 되었습니다! 이 새로운 태스크 유형은 런타임에 정의된 동적 매개 변수 세트를 루핑하여 반복적인 태스크를 자동화하는 것을 이전보다 더 쉽게 만들어 주며, Databricks Workflows향상된 제어 흐름 기능에 대한 지속적인 투자의 일부입니다. For Each를 통해 워크플로우의 효율성과 확장성을 간소화하여 복잡한 논리보다는 인사이트에 집중할 수 있는 시간을 확보할 수 있습니다.

Databricks Workflows

루핑으로 반복 작업 처리를 획기적으로 개선

복잡한 워크플로 관리에는 종종 여러 데이터 세트를 처리하거나 여러 작업을 수행하는 반복 작업이 포함됩니다. 루핑을 지원하지 않는 데이터 오케스트레이션 도구는 여러 가지 문제를 제기합니다.

복잡한 논리 단순화

이전에는 사용자가 반복적인 태스크를 관리하기 위해 수동적이고 유지 관리가 어려운 로직을 사용했습니다(위 그림 참조). 이 방법에서는 종종 각 작업별로 태스크를 생성하, 워크플로우를 부풀리고 오류가 발생하기 쉽습니다.

For Each를 사용하면 이전에 필요한 복잡한 논리가 크게 단순화됩니다. 사용자는 복잡한 스크립트에 의존하지 않고 워크플로우 내에서 루프를 쉽게 정의할 수 있으므로 작성 시간을 절약할 수 있습니다. 이렇게 하면 워크플로우 설정 프로세스가 간소화되고 오류 가능성이 줄어들어 워크플로우가 더 유지 관리 가능하고 효율적이 됩니다. 다음 예에서는 100개국에서 판매 데이터를 처리한 후 다음 단계로 집계합니다.

  1. 판매 데이터 수집,
  2. For Each를 사용하여 100개국에서 데이터 처리
  3. 데이터 집계 및 판매 모델 학습.

Simplifying complex logic

동적 매개 변수로 향상된 유연성

For Each가 없다면 사용자의 워크플로우 활용은 매개 변수가 자주 변경되지 않는 시나리오로 제한될 것입니다. For Each를 사용하면 런타임에 정의된 동적 매개 변수를 루핑하여 태스크 값으로 전달할 수 있으므로 하드 코딩의 필요성이 줄어듭니다. 아래에서 노트북 태스크의 매개 변수가 동적으로 정의되고 For Each 루프에 전달되는 것을 볼 수 있습니다(이제 일반 출시된 서버리스 컴퓨팅을 사용하는 것도 확인할 수 있습니다!).

Dynamic Parameters

효율적인 동시 처리

For Each는 진정한 동시 컴퓨팅을 지원하여 다른 주요 오케스트레이션 도구와 차별화됩니다. For Each를 사용하면 사용자는 병렬로 실행할 태스크 수를 지정하여 종단 간 실행 시간을 줄여 효율성을 개선할 수 있습니다. 아래에서 For Each 루프의 동시성이 10으로 설정되었으며 최대 100개의 동시 루프를 지원하는 것을 볼 수 있습니다. 기본적으로 동시성은 1로 설정되고 태스크는 순차적으로 실행됩니다.

Efficient processing with concurrency

쉬운 디버깅

루핑이 지원되지 않는 경우 워크플로우 디버깅 및 모니터링이 더 어려워집니다. 태스크가 많은 워크플로우는 디버깅이 어려워 가동 시간이 줄어듭니다.

For Each 내에서 repair를 지원하면 디버깅 및 모니터링이 훨씬 원활해집니다. 하나 이상의 반복이 실패하면 실패한 반복만 다시 실행되고 전체 루프는 다시 실행되지 않습니다. 이렇게 하면 컴퓨팅 비용과 시간을 절약하여 효율적인 워크플로우를 유지 관리하는 것이 쉬워집니다. 워크플로우 실행에 대한 향상된 가시성으로 인해 문제 해결이 더 빠르고 가동 중지 시간이 줄어들어 궁극적으로 생산성과 적시 통찰력이 향상됩니다. 아래에서는 위의 예의 최종 출력을 보여줍니다.

Debug with ease

이러한 향상된 기능은 데이터 인텔리전스 플랫폼의 오케스트레이션을 위한 Databricks Workflows의 광범위한 기능 세트를 더욱 확장하여 사용자 경험을 크게 개선하고 고객 워크플로우를 더 효율적이고 유연하며 관리 가능하게 만듭니다.

시작하기

For Each를 사용하여 워크플로우를 간소화하고 데이터 작업에 더욱 속도를 내보세요!

Databricks Workflows UI에서 다양한 태스크 유형을 구성하는 방법에 대해 자세히 알아 보려면 제품 문서를 참조하세요.

 

(번역: Youngkyong Ko)  Original Post

Databricks 무료로 시작하기

관련 포스트

모든 플랫폼 블로그 포스트 보기