メインコンテンツへジャンプ

Databricks Workspaceの新しいFilesエクスペリエンスを発表

Work with files and notebooks together in the same familiar editor
Share this post

Original Blog : Launching a New Files Experience for the Databricks Workspace

翻訳: junichi.maruyama 

本日、Databricksのワークスペースにおけるファイルの一般的な利用可能性を発表することを嬉しく思います。ファイルのサポートにより、DatabricksユーザーはPythonソースコード、リファレンスデータセット、その他あらゆるタイプのファイルコンテンツをノートブックと一緒に直接保存できるようになります。また、Databricksは、インラインコード実行をサポートする新しいリッチファイルエディタを一般的に利用できるようにします。この新しいエディタは、ファイルエディタにノートブックの多くの機能(入力時のオートコンプリート、オブジェクトインスペクション、コードフォールディングなど)をもたらし、より強力な編集体験を提供します。

ワークスペースでのファイルサポートは、Databricks Reposでお馴染みの機能を拡張し、バージョン管理システムを使用しているかどうかに関わらず、プラットフォーム全体で利用できるようにします。

ソフトウェア開発のベストプラクティスを実現するファイル

Workspace ファイルは、モジュラーコード、ユニットテスト、ライブラリとアーティファクトの再利用、ソフトウェアの依存関係をコードとして指定するなどのソフトウェア開発のベストプラクティスを適用できる表面積を拡大します。これまでDatabricks Workspacesはノートブックとノートブックを含むフォルダしかサポートしていませんでしたが、200MB以下のファイルをWorkspaceに作成・保存できるようになりました。これには、ソースコードと関連する要件(Pythonスクリプト、モジュール、requirement.txt、.whlファイルなど)、小さなサンプルデータ(.csvファイルなど)などが考えられます。

ワークスペース・ファイルを使用する利点は以下の通りです:

  • モジュール化されたコードと再利用: ファイルのサポートにより、大規模で多くのセルがあるノートブックをより小さく、より理解しやすいモジュールにリファクタリングすることができます。ノートブックでは、「import」ステートメントを使用して、これらのモジュールを参照することができます。
  • テスト: ノートブックやモジュールのコードに対してユニットテストを作成し、ソースコードと一緒にファイルとしてパッケージすることができます。
  • 初期化スクリプト: クラスタに対応した初期化スクリプトをワークスペース・ファイルに格納することができます。これらのスクリプトはアクセス制御され、許可されたユーザーだけが変更できるようになります。
  • ライブラリとアーティファクトの再利用: Wheel、Jar、および共有Pythonライブラリのソースファイルをノートブックに保存できるため、ノートブック内の作業の共有、配布、および複製が容易になります。
  • ソフトウェアの依存関係管理の改善: requirements.txtファイルにより、ワークスペース内のノートブックやその他のPythonコード資産のソフトウェア依存関係をファイルにカプセル化し、そのソフトウェア環境の将来の複製を単純な`%pip -r`呼び出しを減らすことができるようになりました。

Include software dependencies for the Workspace in a file
Include software dependencies for the Workspace in a file

アクセスコントロールリストによるファイルやフォルダのアクセス保護

Secure access to individual files or folders using that object's Access Control Lists (ACLs). You can restrict access to individual files or folders to only the users or groups of users that should have access. ACLs can be controlled directly from the Workspace browser or inside the object.

そのオブジェクトのアクセス制御リスト(ACL)を使用して、個々のファイルまたはフォルダへのアクセスを保護します。個々のファイルまたはフォルダへのアクセスを、持つべきユーザーまたはユーザーのグループのみにアクセス権を制限することができます。ACL は、Workspace ブラウザまたはオブジェクト内部から直接制御することができます。

Govern access to individual files or folders from the workspace browser or the object
ワークスペースブラウザーやオブジェクトから、個々のファイルやフォルダーにアクセスすることができる

パワフルなファイル編集と実行で生産性を高める

アップデートされたファイルエディターは、これまでのファイル編集をノートブックで使用されているものと同じものに置き換え、ファイルとノートブックのオーサリング体験を統一しています。これにより、ノートブックでもファイルでも、同じ操作感で作業できるようになりました。

新しいエディターでは、以下のようなプログラミングのエルゴノミクスが改善されています:

  • オートコンプリート(自動入力): 新しいエディターでは、入力中にオートコンプリートの候補ボックスが自動的に表示されます。
  • オブジェクトの検査: 変数やその他のオブジェクトにカーソルを合わせると、その詳細が表示されます。
  • コードフォールディング: コードフォールディングにより、コードの一部を一時的に隠すことができ、長いコードロックの中で作業中の部分だけに集中することができます。
  • バージョン履歴でサイドバイサイドの差分を表示: 以前のバージョンのファイルを表示する際、新しいエディターでは、何が変更されたかを簡単に確認できるように、サイドバイサイドの差分を表示します。

また、ファイルエディターの出力ウィンドウが下にドッキングされ、スクロールしなくても実行出力を見ることができるようになることも間もなくリリースする予定です。リリースされた際には、release notesで最新情報をご確認ください。

You can create a new file, edit it with the new formatting, and run it, all from Workspaces
新規ファイルの作成、新しいフォーマットでの編集、実行まで、すべてワークスペースから行うことができます

今すぐ試してみる

追加設定やソース管理の導入なしに、ワークスペース上であらゆるファイルタイプを使用・参照できるようになりました。ファイル(200MB未満)をアップロードし、コード内で参照するだけです。Workspace ファイルは Databricks Runtime 11.2 以上でデフォルトで有効になっており、クラスタスコープの init スクリプトのサポートは現在のすべての Databricks Runtime で有効になっています。詳しくは、開発者向けドキュメントをご覧ください。

Databricks 無料トライアル

関連記事

Databricks Notebooksのアップグレードを紹介 - 新しいエディタ、Pythonフォーマットなど

Databricks Notebooksは、データおよびAIプロダクトを構築するすべての人に、シンプルで統一された環境を提供します。本日、Notebooksのエクスペリエンスに関するアップデートを紹介します: オートコンプリートの高速化、シンタックスハイライトの改善、コードの折りたたみなど、より速くコーディングできるようになった新しいエディター。 Blackを使ったPython Code Formatterでコードを読みやすく、レビューしやすく。 ノートブック内で選択されたテキストを実行し、デバッグを加速させる 新しいノートブックエディター 私たちの新しいエディターは、ユーザーにとって、コーディングをより簡単に、より速く、より間違いの少ないものにするための多くの機能を可能にします。IDEからブラウザにシームレスに移行し、同様のユーザーエクスペリエンスにアクセスできるようにしたいと考えています。私たちは、MicrosoftのVS Codeを支えるオープンソースのエディターであるMonacoを採用し、あなたの生活をよ

Databricks Repos 一般公開、Files の新機能も一般プレビュー

Databricks Repos は、一般プレビューとして利用可能になって以来、Databricks の数千のユーザーの皆様によって、開発やプロダクションワークフローの標準化に活用いただいています。その Databricks Repos を本日一般公開しました。 Databricks Repos は、データチームが常に抱えている課題を解決するために開発されました。データエンジニア、データサイエンティストが使用しているツールの多くは、Git のバージョン管理システムとの連携が不十分、あるいは全くありません。コードをレビュー、コミットするだけでも、数多くのファイル、ステップ、UIをナビゲートする必要がありました。これでは時間がかかるだけでなく、エラーを発生しやすくします。 Repos は、Databricks と一般的な Git プロバイダーを直接リポジトリレベルで統合することで、データの実践者は新規の Git リポジトリや既存リポジトリをクローンの作成、Git オペレーションの実行、開発のベストプラクティスに従うこ
プラットフォームブログ一覧へ