Original: Debug your code and notebooks by using Visual Studio Code
翻訳: saki.kitaoka
今年初めに、Visual Studio Code用の公式Databricks拡張機能をローンチしました。今日、この拡張機能を使って、インタラクティブなデバッグとローカルJupyter(ipynb)ノートブック開発をサポートする機能を追加しています!
Databricks Connectを使ったインタラクティブなデバッグ
データサイエンティストやデータエンジニアは通常、コードのエラーを特定するためにprint文やログに頼っていますが、これは時間がかかり、 エラーが生じやすいです。Databricks Connectを使用した対話式デバッグのサポートにより、開発者はコードをステップバイステップで実行し、変数をリアルタイムで検査することができます。Databricks Connectは、IDEからリモートクラスタ上でSparkコードを実行することを可能にし、デバッグ中にコードをステップ実行することを容易にします。
Databricks Connectを使用するように拡張機能を設定した後(下記の「簡単なセットアップ」を参照)、VS Codeの「Debug Python File」ボタンを使ってデバッグを開始するだけです。他のPythonファイルと同じように、ブレークポイントを追加してコードをステップバイステップで実行することができます。また、変数を検査したり、デバッグコンソールでデバッグコマンドを実行する機能もあります。
ipynbノートブックのサポート
このリリースでは、ipynb形式をサポートするため、Visual Studio Code内で既存のノートブック機能(例えば、探索的データ分析のためのセルごとの実 行など)を使用することができます。
DBUtilsとSpark SQLのサポート
さらに、Spark SQLを実行することができ、人気ツール「dbutils」を限定的に実行するサポートもあります。以下のコードブロックを使用してdbutilsをインポートすることができます:
簡単なセットアップ
既にVisual Studio CodeのDatabricks拡張機能をワークスペースで動作するように設定している場合、VS Codeエディタの左下にある「Databricks Connect disabled」ボタンをクリックするだけでDatabricks Connectを有効にすることができます。これをクリックすると、仮想環境にDatabricks Connectをインストールするように求められます。
Sparkセッションの設定
Visual Studioの拡張機能が設定されている限り、Sparkセッションは既存の設定を使用してリモートクラスタに接続するために初期化されます。以下のスニペットを使用して参照を取得することができます:
通常のPythonファイルやipynbノートブックを使用してPythonコードを開発する 際に、ぜひインタラクティブなデバッグをお試しください!
VS Code拡張機能はVisual Studio Marketplaceからダウンロードできます。
Download the VS Code Extension
AWS, Azure, および GCPのドキュメントを参照して、拡張機能の使用開始方法についてのヘルプをご覧ください。
Databricks Communityでこの拡張機能や開発体験の他の側面についてのフィードバックをお聞かせいただけると嬉しいです!