メインコンテンツへジャンプ

Visual Studio Codeを使ってコードやノートブックをデバッグしましょう

Saad Ansari
Fabian Jakobs
Kartik Gupta
ウラディスラフ・マンティック=ルーゴ
Share this post

Original: Debug your code and notebooks by using Visual Studio Code

翻訳: saki.kitaoka

今年初めに、Visual Studio Code用の公式Databricks拡張機能をローンチしました。今日、この拡張機能を使って、インタラクティブなデバッグとローカルJupyter(ipynb)ノートブック開発をサポートする機能を追加しています!

Databricks Connectを使ったインタラクティブなデバッグ

データサイエンティストやデータエンジニアは通常、コードのエラーを特定するためにprint文やログに頼っていますが、これは時間がかかり、エラーが生じやすいです。Databricks Connectを使用した対話式デバッグのサポートにより、開発者はコードをステップバイステップで実行し、変数をリアルタイムで検査することができます。Databricks Connectは、IDEからリモートクラスタ上でSparkコードを実行することを可能にし、デバッグ中にコードをステップ実行することを容易にします。

Interactive Debugging with Databricks Connect

Databricks Connect

Databricks Connectを使用するように拡張機能を設定した後(下記の「簡単なセットアップ」を参照)、VS Codeの「Debug Python File」ボタンを使ってデバッグを開始するだけです。他のPythonファイルと同じように、ブレークポイントを追加してコードをステップバイステップで実行することができます。また、変数を検査したり、デバッグコンソールでデバッグコマンドを実行する機能もあります。

ipynbノートブックのサポート

このリリースでは、ipynb形式をサポートするため、Visual Studio Code内で既存のノートブック機能(例えば、探索的データ分析のためのセルごとの実行など)を使用することができます。

ipynb notebooks

DBUtilsとSpark SQLのサポート

さらに、Spark SQLを実行することができ、人気ツール「dbutils」を限定的に実行するサポートもあります。以下のコードブロックを使用してdbutilsをインポートすることができます:

from databricks.sdk.runtime import *
dbutils.fs.ls(".")

 

簡単なセットアップ

既にVisual Studio CodeのDatabricks拡張機能をワークスペースで動作するように設定している場合、VS Codeエディタの左下にある「Databricks Connect disabled」ボタンをクリックするだけでDatabricks Connectを有効にすることができます。これをクリックすると、仮想環境にDatabricks Connectをインストールするように求められます。

 

Install DB Connect into your virtual environment
Install DB Connect into your virtual environment

Sparkセッションの設定

Visual Studioの拡張機能が設定されている限り、Sparkセッションは既存の設定を使用してリモートクラスタに接続するために初期化されます。以下のスニペットを使用して参照を取得することができます:

from databricks.connect import DatabricksSession
spark = DatabricksSession.builder.getOrCreate()
df = spark.read.table("samples.nyctaxi.trips")
df.show(5)

通常のPythonファイルやipynbノートブックを使用してPythonコードを開発する際に、ぜひインタラクティブなデバッグをお試しください!

VS Code拡張機能はVisual Studio Marketplaceからダウンロードできます。 

Download the VS Code Extension

AWS, Azure, および GCPのドキュメントを参照して、拡張機能の使用開始方法についてのヘルプをご覧ください。

Databricks Communityでこの拡張機能や開発体験の他の側面についてのフィードバックをお聞かせいただけると嬉しいです!

Databricks 無料トライアル

関連記事

Databricks Connect “v2” でどこからでも Databricks を使用しよう

Original Blog : Use Databricks from anywhere with Databricks Connect “v2” 翻訳: junichi.maruyama この度、Databricks Connect "v2 "のパブリックプレビューを発表することができ、開発者はどこでも動作するアプリケーションからDatabricksのパワーを利用できるようになりました。 これまで、SQL以外の言語からDatabricksにリモートで接続する方法はありませんでした。 Databricks Connect library をアプリケーションに組み込み、Databricks Lakehouseに接続するだけです!...

Spark Connect がApache Spark 3.4で利用可能になりました

Original Blog : Spark Connect Available in Apache Spark 3.4 翻訳: junichi.maruyama 昨年、Data and AI SummitでSpark Connectが 紹介 されました。最近リリースされたApache SparkTM 3.4の一部として、Spark Connectは一般的に利用できるようになりました。また、最近Databricks ConnectをSpark...
プラットフォームブログ一覧へ