주요 컨텐츠로 이동

향상된 워크플로 UI로 디버깅 시간 단축과 생산성 향상

Sajal Jain
Frank Wisniewski
Saad Ansari
이 포스트 공유하기

데이터 팀은 문제 해결, 패치 적용, 실패한 워크로드 재시작에 너무 많은 시간을 소비합니다. 엔지니어들이 하루 종일 워크로드를 조사하고 디버깅하는 경우도 드물지 않습니다.

이제 데이터 엔지니어들이 작업의 문제를 모니터링하고 진단하는 것이 더 쉬워졌습니다. 이러한 기능을 통해 작업 실행이 실패하거나 비정상적으로 오래 걸릴 때 이를 파악하고, 실패 원인을 이해하며, 문제의 근본 원인을 신속하게 해결할 수 있습니다.

타임라인 뷰(Timeline view)에서의 시각적 작업 실행

데이터 엔지니어로서 워크로드를 최적화하는 첫 번째 단계는 시간이 어디에 소비되는지를 이해하는 것입니다. 복잡한 데이터 워크플로에서는 마치 건초 더미에서 바늘을 찾는 것처럼 느껴질 수 있습니다. 새로운 타임라인 뷰는 작업 실행을 타임라인 상의 수평 막대로 표시하여 작업 간의 의존성, 지속 시간, 상태를 보여줍니다. 이를 통해 DAG 실행에서 병목 현상과 시간 소모가 큰 영역을 신속하게 파악할 수 있습니다. 작업이 어떻게 교차하고 지연이 발생하는지를 종합적으로 보여줌으로써, 타임라인 뷰는 프로세스를 간소화하고 효율성을 향상시키는 데 도움을 줍니다.

실행 이벤트(Run Events): 작업 진행 상황에 대한 중요한 정보 확인

워크플로 실행의 진행 상황을 추적하는 일은 종종 불투명하고 번거로울 수 있습니다. 필수적인 문제 해결 정보를 얻기 위해 상세한 로그를 검토해야 하기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 제품 내에서 실행 진행 상황을 시각화할 수 있는 실행 이벤트 기능을 구축했습니다. 이 기능을 통해 컴퓨팅 시작 및 종료, 사용자의 실행 시작, 재시도, 상태 변경, 알림 등 중요한 관련 이벤트를 쉽게 확인할 수 있습니다.

더 나은, 더 간단한, 실행에 옮길 수 있는 오류 메시지

오류 메시지를 해석하는 일은 종종 벅차고 혼란스러우며 많은 시간을 소모할 수 있습니다. 특히 메시지가 일관성이 없고 지나치게 기술적일 때 더욱 그렇습니다. 우리는 오류 코드를 간소화하고 실행 가능성을 높였습니다. 이를 통해 작업 전반에 걸쳐 비정상적인 오류를 모니터링하고, 오류 코드로 실행을 필터링하며, 실행 실패를 훨씬 더 빠르게 해결할 수 있습니다. 이러한 오류 설명은 복잡한 로그를 뒤지거나 전체 코드를 다시 이해하지 않고도 무엇이 잘못되었는지를 빠르게 파악할 수 있도록 도와줍니다. 예를 들어, 실행 중 발생하는 UnauthorizedError는 작업 실행에 필요한 리소스 접근 권한 문제를 나타낼 수 있습니다.

Databricks Assistant의 워크플로 통합

우리의 AI 기반 데이터 인텔리전스 엔진인 Databricks Assistant가 이제 작업 실패를 진단하고 해결 및 테스트를 위한 단계를 제공합니다. Databricks 워크플로 내에서 상황에 맞는 도움을 가장 필요할 때 받을 수 있습니다. 현재 이 기능은 노트북 작업 유형에만 지원되지만, 다른 작업 유형에 대한 지원도 곧 추가될 예정입니다.

작업에서 사용되는 Python 라이브러리 목록

라이브러리 문제를 디버깅하는 과정은 버전 충돌, 손상된 패키지, 난해한 오류로 인해 좌절스럽고 시간이 많이 소모될 수 있습니다. 이제 작업 실행에서 사용된 Python 라이브러리와 그 버전 번호를 나열할 수 있습니다. 이 기능은 특히 유용한데, Python 패키지가 이미 DBR 이미지의 일부로 사전 설치되어 있거나 컴퓨트 클러스터의 부트스트랩 작업 중에 설치될 수 있기 때문입니다. 또한 이 기능은 위의 어떤 요소가 사용된 패키지 버전에 영향을 미쳤는지를 강조합니다.

시작하기

Databricks 워크플로를 시작하려면 빠른 시작 가이드를 참조하세요. 지금 바로 Workflows 탭을 클릭하여 Azure, AWS 및 GCP에서 이러한 기능을 시도해 볼 수 있습니다.

앞으로의 계획

우리는 모니터링, 경고 및 관리 기능을 개선하기 위해 계속해서 확장해 나갈 것입니다. 검색 및 태그 기능을 개선하여 관심 있는 작업을 더 쉽게 찾을 수 있는 새로운 방법을 개발 중입니다. 여러분의 경험과 보고 싶은 기능에 대한 의견도 환영합니다.

 

(번역: Youngkyong Ko)  Original post

Databricks 무료로 시작하기

관련 포스트

Never Miss a Beat: Announcing New Monitoring and Alerting capabilities in Databricks Workflows

We are excited to announce enhanced monitoring and observability features in Databricks Workflows . This includes a new real-time insights dashboard to see...

Exciting new updates coming to Workflows in April

April 4, 2023 작성자: Jan van der Vegt in
Databricks is excited to announce the release of several exciting new Workflows features that will simplify the way you create and launch automated...

Databricks Workflows를 이용한 레이크하우스 오케스트레이션

다양한 산업 분야에서 많은 기업들이 레이크하우스 아키텍처를 채택하여 데이터, 분석 및 AI 워크로드에 통합 플랫폼으로 사용하고 있습니다. 워크로드를 프로덕션 환경으로 옮길 때, 워크로드를...
모든 플랫폼 블로그 포스트 보기