メインコンテンツへジャンプ

ビートを逃さない: Databricksワークフローにおけるモニタリングとアラートの新機能を発表

Databricksの最新モニタリングツールによる効率的なワークフロー管理
Share this post

翻訳:Junichi Maruyama.  -  Original Blog Link

この度、Databricks Workflowsの監視・観測機能が強化されました。これには、すべてのプロダクションジョブの実行を一箇所で確認できる新しいリアルタイムインサイトダッシュボード、すべてのワークフローに対する高度で詳細なタスクトラッキング、問題が発生する前に問題をキャッチするための新しいアラート機能などが含まれます。これらの素晴らしい新機能の目標は、あらゆるスキルレベルのデータ実務者の生産性を最適化しながら、すべてのプロダクション・ワークフローを全体的に把握できるようにすることで、日々の業務を簡素化することです。

Databricks Workflows は、Databricks Lakehouse Platformと完全に統合された、データ、アナリティクス、MLのワークロードのための、使いやすく、信頼性の高い、完全に管理されたオーケストレーションソリューションです。直感的なUIを備えているため、すべてのデータ実務者にとってシンプルであり、強力なAPIにより、データエンジニアや開発者は、CI/CDを完全にサポートしたお気に入りのIDEでワークフローの作成と保守を行うことができます。また、99.95%の稼働率を誇り、毎日何万もの本番ワークロードを実行している実績があります。私たちが自信を持って発表する、これらのエキサイティングな新observability機能の詳細については、以下をお読みください。

ジョブの実行:すべてのジョブをリアルタイムで監視

本番のワークロードを追跡することは、特に数百または数千のワークフローをすべて一度に実行している場合は困難です。そこで、"本番ですべてがどのように実行されているか?"という質問に答えるために、新しいジョブ実行ダッシュボードを構築しました。このダッシュボードでは、開始時間、期間、ステータス、その他の関連情報を含む、すべてのジョブの概要をリアルタイムで見ることができます。

また、ジョブ実行の傾向を見ることで、状況が改善しているのか悪化しているのかを理解することができます。インタラクティブなスライダーを使用して、特定の期間にズームインして時間をより詳細に表示したり、アクティブな実行、完了した実行、成功した実行、スキップした実行、失敗した実行など、さまざまな実行タイプでフィルタリングすることができます。また、トラブルシューティングを改善するために、すべてのワークロードで発生している上位のエラータイプのサマリーも提供します。

新しいジョブ実行ダッシュボードは、ワークフローの健全性を一目でチェックし、問題が発生する前に診断するための適切なメトリクスを確認できることを意味します。この可視性の向上により、ワークフローが期待通りに実行されているかどうかを迅速に判断し、事前対策を講じ、下流の業務への悪影響を最小限に抑えることができます。

Job Runs: Monitor All Your Jobs in Real Time

マトリックスビュー: 実行中のタスクの健全性を診断

特定のジョブがなぜ失敗するのか、不思議に思ったことはありませんか?各ジョブとそのすべてのタスクの動作を理解することは、健全性を評価し、根本的な問題をデバッグするための鍵となります。これが新しい「ジョブマトリックスビュー」を追加した理由です。このビューにより、ジョブ全体の実行期間を評価し、各タスクの健全性を素早く確認することができます。特定のジョブが失敗または遅延している場合、どのタスクに問題があるかが表示されるため、ダウンタイムを最小限または中断することなくワークフローを修正することができます。また、各ジョブ実行内の各タスクの所要時間の傾向を簡単に確認し、時間の経過とともに状況がどのように変化するかを確認することもできます。

Matrix View: Diagnose Task Health Across Runs

期間警告: 期限切れジョブに警告を発し、データの鮮度を確保

ビジネスユーザーや顧客から、ダッシュボードやレポートが最新でない理由を尋ねられたり、ETLジョブが予想以上に長く実行されていることに気づいたりしたことはありませんか?このような望ましくない状況に対処するために、ジョブやタスクに新しいタイプの警告を導入し、実行時間のしきい値を設定できるようにしました。

Example of a Slack alert with our newly released webhooks
Example of a Slack alert with our newly released webhooks

Databricks Workflowsの新機能である時間制限機能は、長時間稼動しているジョブや停止しているジョブを早期に検出します。タイムリーな介入は、データの整合性を維持し、ビジネス目標を達成するのに役立ちます。

Runs that goes beyond the expected limit are also highlighted on the matrix view
Runs that goes beyond the expected limit are also highlighted on the matrix view

きめ細かな通知コントロール

これらの新しいタイプのアラートと警告により、どのユーザーやグループがジョブのどの段階でアラートを受けるべきかをよりコントロールできるようになりました。各受信者に対して、どのイベントに対してアラートを出すかを定義できるようになりました。これは、ビジネスプロセスをサポートするために、より複雑なエスカレーションパスを作成できることを意味します。例えば、ジョブが予想より長く実行された場合、データセットの所有者とそのコンシューマーに警告を発し、失敗した場合のみサポートチームに報告することができます。

New options are available when you configure notifications
New options are available when you configure notifications

How to get started?

Databricks Workflowsを使い始めるには、quickstart guideをご覧ください。ワークフローのタブをクリックするだけで、Azure、AWS、GCPでこれらの機能を試すことができます。

What's Next

私たちは、モニタリング、アラート、および管理機能の改善を引き続き拡大していきます。検索とタグ付け機能を改善することで、気になる求人を見つける新しい方法に取り組んでいます。また、皆様のご経験やご希望される機能についても、ぜひお聞かせください。

Databricks 無料トライアル

関連記事

Databricksのワークフローを利用したLakehouseのオーケストレーション

Original: Lakehouse Orchestration with Databricks Workflows 翻訳: junichi.maruyama 業界を問わず、組織はレイクハウス・アーキテクチャを採用し、すべてのデータ、アナリティクス、AIのワークロードに統一プラットフォームを使用しています。ワークロードを本番環境に移行する際、組織はワークロードのオーケストレーションの方法が、データとAIソリューションから引き出すことのできる価値にとって重要であることに気づいています。オーケストレーションが正しく行われれば、データチームの生産性を向上させ、イノベーションを加速させることができ、より良いインサイトと観測性を提供でき、最後にパイプラインの信頼性とリソース利用を改善することができる。 Databricks Lakehouse Platformの活用を選択したお客様にとって、オーケストレーションがもたらすこれらの潜在的なメリットはすべて手の届くところにありますが、Lakehouseとうまく統合されたオーケ
プラットフォームブログ一覧へ