信頼性の高いレイクハウスのオーケストレーターである Databricks Workflows が、パブリックプレビューで dbt プロジェクトのオーケストレーションをサポートするようになったことをお知らせします。このプレビューでは、データチームがノートブックか ら ML モデルまで、レイクハウスの全ての機能とともに dbt プロジェクトを調整することができます。この機能により、オープンソース dbt のユーザーは、SQL を使ったデータ変換や、レイクハウス全体のデータおよび ML パイプラインの監視と保守を簡単に行うことができます。
ジョブが実行されると、dbt プロジェクトが Git リポジトリから取得され、単一ノードのクラスタが構築され、そこに dbt-core とプロジェクトの依存関係がインストールされます。dbt で生成された SQL はサーバーレスの SQL ウェアハウスで実行されるため、デバッグが容易で優れたパフォーマンスを発揮します。また、Jobs API を利用してそのようなジョブを管理する機能はもちろん、失敗した実行を修復したり、dbt タスクが失敗したときに Slack や webhook 先でアラートを送信する機能など、堅牢で運用性の高い機能が提供されています。
Databricks 上で dbt を使い始めるには、"pip install dbt-databricks" を実行するだけです。これにより、dbt Labs や他の貢献者とともに構築されたオープンソースの dbt-databricks パッケージがインストールされます。詳細なガイドに従って、SQL ウェアハウス上で実行できるサンプルプロジェクトで始めることができます。ソースコードを Git リポジトリにコミットすると、新しい dbt タスクタイプを使って本番環境で dbt モデルを実行できます。(Azure、AWS のドキュメントをご覧ください。GCP については近日公開予定です。)この機能は、サーバーレス SQL ウェアハウスをサポートする全てのリージョン(Azure、AWS)で利用可能です。
私たちは、Databricks Workflows における dbt の将来に期待しています。このプレビューをより多くの地域で利用できるように拡張し、追加の計算オプションを提供することを楽しみにしています。dbt Coalesce では、Databricks のブースで皆様にお会いしてお話できればと思います。それまでの間、こちらのフォームにて、この新機能に関する皆様のご意見をお聞かせください。