データチームは問題のトラブルシューティング、パッチの適用、失敗したワークロードの再起動に多くの時間を費やしています。エンジニアが一日中、自分のワークロードの調査とデバッグに費やすことは珍しくありません。
これで、データエンジニアが自分の仕事の問題を監視し、診断するのがより簡単になりました。これらの機能により、ジョブの実行が失敗したり、通常よりも長い時間がかかったりしたとき、失敗の理由を理解し、問題の根本原因を迅速に修復することが できます。
タイムラインビューでのジョブの実行の視覚化
データエンジニアとして、ワークロードを最適化する最初のステップは、時間がどこで費やされているかを理解することです。複雑なデータワークフローでは、針を干草の山から探すような感じになることがあります。新しいタイムラインビューは、ジョブの実行をタイムライン上の水平バーとして表示し、タスクの依存関係、持続時間、ステータスを示します。これにより、DAGの実行におけるボトルネックや大幅な時間消費エリアを素早く特定することができます。タスクがどのように交差し、遅延がどこで発生するかの包括的な概観を提供することで、タイムラインビューはプロセスの効率化と効率の向上を支援します。
実行イベント:ジョブの進行に関する重要な情報を確認してください。
ワークフローの進行状況を追跡することは、詳細なログを見直して必要なトラブルシューティング情報を収集することが多く、不透明で面倒なことがよくあります。私たちは製品内で直接実行の進行を視覚化するための実行イベントを構築しました。この機能により、重要で関連性のあるイベント(コンピュートの起動とシャットダウン、ユーザーがランを開始、リトライ、ステータスの変更、通知など)が簡単に見つけられます。
より良く、シンプルで、具体的なエラー
エラーメッセージのナビゲーションは、特にメッセージが一貫性がなく、過度に技術的な場合、よく困難で混乱し、時間がかかるものです。私たちはエラーコー ドを簡素化し、より実行可能にしました。これにより、ジョブ全体の異常なエラーを監視し、エラーコードで実行をフィルタリングし、実行の失敗をはるかに迅速に解決することができます。これらのエラーの説明は、複雑なログを見直したり、コード全体を再理解したりすることなく、何が間違っていたのかをすばやく理解するのに役立ちます。例えば、実行に対するUnauthorizedErrorは、ジョブの実行のリソースへのアクセスに許可の問題があることを示しています。
Databricksアシスタントが現在ワークフローと統合されました。
私たちのAI駆動型データインテリジェンスエンジンであるDatabricks Assistantは、ジョブの失敗を診断し、解決策を修正しテストする手順を提供します。Databricksワークフロー内で、最も必要なときに、コンテキストに応じたヘルプを得ることができます。この機能はノートブックタスクのみをサポートしていますが、他のタスクタイプへのサポートも近く追加されます。
あなたの仕事で使用されるPythonライブラリをリストしてください
バージョンの競合、壊れたパッケージ、暗号化されたエラーなどは、ライブラリの問題をデバッグする際に、イライラさせる時間のかかる課題となります。これで、タスク実行に使用されるPythonライブラリをバージョン番号と共にリストアップすることができます。これは特に有用です。なぜなら、PythonパッケージはすでにDBRイメージの一部として、またはコンピュートクラスターのブートストラップアクション中に事前にインストールされているかもしれないからです。この機能は、上記のどれがパッケージバージョンの使用に結果として生じたかを強調表示します。
使用方法
Databricks Workflowsを始めるには、クイックスタートガイドをご覧ください。これらの機能は、Azure、AWS、GCPで試すことができ、今日からワークフロータブをクリックするだけで利用できます。
次のステップ
私たちは監視、アラート、管理機能の改善に引き続き取り組んでいます。私たちは、検索&タグ付け機能を改善することで、あなたが気になるジョブを見つける新しい方法を開発しています。また、あなたの経験や他に見たい機能についてお聞かせください。