Databricks Workspaceの新しいFilesエクスペリエンスを発表
Original Blog : Launching a New Files Experience for the Databricks Workspace
翻訳: junichi.maruyama
本日、Databricksのワークスペースにおけるファイルの一般的な利用可能性を発表することを嬉しく思います。ファイルのサポートにより、DatabricksユーザーはPythonソースコード、リファレンスデータセット、その他あらゆるタイプのファイルコンテンツをノートブックと一緒に直接保存できるようになります。また、Databricksは、インラインコード実行をサポートする新しいリッチファイルエディタを一般的に利用できるようにします。この新しいエディタは、ファイルエディタにノートブックの多くの機能(入力時のオートコンプリート、オブジェクトインスペクション、コードフォールディングなど)をもたらし、より強力な編集体験を提供します。
ワークスペースでのファイルサポートは、Databricks Reposでお馴染みの機能を拡張し、バージョン管理システムを使用しているかどうか に関わらず、プラットフォーム全体で利用できるようにします。
ソフトウェア開発のベストプラクティスを実現するファイル
Workspace ファイルは、モジュラーコード、ユニットテスト、ライブラリとアーティファクトの再利用、ソフトウェアの依存関係をコードとして指定するなどのソフトウェア開発のベストプラクティスを適用できる表面積を拡大します。これまでDatabricks Workspacesはノートブックとノートブックを含むフォルダしかサポートしていませんでしたが、200MB以下のファイルをWorkspaceに作成・保存できるようになりました。これには、ソースコードと関連する要件(Pythonスクリプト、モジュール、requirement.txt、.whlファイルなど)、小さなサンプルデータ(.csvファイルなど)などが考えられます。
ワークスペース・ファイルを使用する利点は以下の通りです:
- モジュール化されたコードと再利用: ファイルのサポートにより、大規模で多くのセルがあるノートブックをより小さく、より理解しやすいモジュールにリファクタリングすることができます。ノートブックでは、「import」ステートメントを使用して、これらのモジュールを参照することができます。
- テスト: ノートブックやモジュールのコードに対してユニットテストを作成し、ソースコードと一緒にファイルとしてパッケージすることができます。
- 初期化スクリプト: クラスタに対応した初期化スクリプトをワークスペース・ファイルに格納することができます。これらのスクリプトはアクセス制御され、許可されたユーザーだけが変更できるようになり ます。
- ライブラリとアーティファクトの再利用: Wheel、Jar、および共有Pythonライブラリのソースファイルをノートブックに保存できるため、ノートブック内の作業の共有、配布、および複製が容易になります。
- ソフトウェアの依存関係管理の改善: requirements.txtファイルにより、ワークスペース内のノートブックやその他のPythonコード資産のソフトウェア依存関係をファイルにカプセル化し、そのソフトウェア環境の将来の複製を単純な`%pip -r`呼び出しを減らすことができるようになりました。
アクセスコントロールリストによるファイルやフォルダのアクセス保護
Secure access to individual files or folders using that object's Access Control Lists (ACLs). You can restrict access to individual files or folders to only the users or groups of users that should have access. ACLs can be controlled directly from the Workspace browser or inside the object.
そのオブジェクトのアクセス制御リスト(ACL)を使用して、個々のファイルまたはフォルダへのアクセスを保護します。個々のファイルまたはフォルダへのアクセスを、持つべきユーザーまたはユーザーのグループのみにアクセス権を制限することができます。ACL は、Workspace ブラウザまたはオブジェクト内部から直接制御することができます。
パワフルなファイル編集と実行で生産性を高める
アップデートされたファイルエディターは、これまでのファイル編集をノートブックで使用されているものと同じものに置き換え、ファイルとノートブックのオーサリング体験を統一しています。これにより、ノートブックでもファイルでも、同じ操作感で作業できるようになりました。
新しいエディターでは、以下のようなプログラミングのエルゴノミクスが改善されています:
- オートコンプリート(自動入力): 新しいエディターでは、入力中にオートコンプリートの候補ボックスが自動的に表示されます。
- オブジェクトの検査: 変数やその他のオブジェクトにカーソルを合わせると、その詳細が表示されます。
- コードフォールディング: コードフォールディングにより、コードの一部を一時的に隠すことができ、長いコードロックの中で作業中の部分だけに集中することができます。
- バージョン履歴でサイドバイサイドの差分を表示: 以前のバージョンのファイルを表示する際、新しいエディターでは、何が変更されたかを簡単に確認できるように、サイドバイサイドの差分を表示します。
また、ファイルエディターの出力ウィンドウが下にドッキングされ、スクロールしなくても実行出力を見ることができるようになることも間もなくリリースする予定です。リリースされた際には、release notesで最新情報をご確認ください。
今すぐ試してみる
追加設定やソース管理の導入なしに、ワークスペース上であらゆるファイルタイプを使用・参照できるようになりました。ファイル(200MB未満)をアップロードし、コード内で参照するだけです。Workspace ファイルは Databricks Runtime 11.2 以上でデフォルト で有効になっており、クラスタスコープの init スクリプトのサポートは現在のすべての Databricks Runtime で有効になっています。詳しくは、開発者向けドキュメントをご覧ください。