企業に おけるビジネスインテリジェンス(BI)や、人工知能(AI)への取り組みの強化に伴い、シンプルで明確かつ信頼性の高いデータ処理タスクのオーケストレーションへのニーズが高まっています。Databricks のユーザーの選択肢はこれまで、複数のタスクを1つの Notebook で実行する、もしくは、別のワークフローのツールを使用して、ユーザーの環境全体をさらに複雑にするしかありませんでした。
本日、私たちは、タスクのオーケストレーションをサポートする Databricks ジョブのパブリックプレビューを発表しました。この機能により、複数タスクを有向非巡回グラフ(DAG)として実行することが可能になります。ジョブとは、Databricks のクラスタでアプリケーションを実行する非インタラクティブな方法です。例えば、ETL ジョブやデータ分析タスクをすぐに実行したり、スケジュールを設定して実行したりします。このジョブ内で複数のタスクをオーケストレーションする機能は、追加のコストは不要で、データや機械学習ワークフローの作成、管理、監視を大幅にシンプルにします。新たな機能には、次のようなメリットがあります。
シンプルなタスクオーケストレーション
Databricks の UI と API を使用して、誰でも DAG のタスクを容易にオーケストレーションできるようになりました。データサイエンティストやアナリストが自分でジョブを構築し、監視できるようになるため、データチームは負担が軽減され、重要な AI や機械学習の取り組みに集中できるようになります。下図は、7 つの Notebook を実行して、レコメンダーの機械学習モデルをトレーニングするジョブの例です。
あらゆるものをオーケストレーション
ジョブオーケストレーションは、Databricks に完全に統合されており、インフラやDevOps リソースの追加は不要です。ユーザーは、Jobs API や UI を使用して、ジョブの作成、管理、監視のメール通知などの機能を利用できます。データチームは、この機能を利用するために新たな知識を習得する必要はありません。この機能により、例えば、CRM からデータを引き出すなど、Databricks の外にある API を持つものを、全てのクラウドにわたってオーケストレーションできるようになります。
次のステップ
タスクオーケストレーションは、2021年7月13日より、パブリックプレビューとして全ての Databricks のワークスペースで展開されます。また、今後数か月の間に、ジョブ内でタスクをまたがるクラスタを再利用できる機能、一度失敗したタスクだけを再実行する DAG を再起動する機能も追加予定です。
Databricks ジョブによるタスクオーケストレーションおよび複数タスクの詳細は、こち らで解説しています。ワークスペースの管理コンソールで、この無料提供の機能を有効にし、利用を開始できます。