Jupyter Notebook
Jupyter Notebook とは
Jupyter Notebook は、オープンソースで提供された Web アプリケーションであり、プログラムや数式、その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で、主にデータサイエンティストに利用されています。
Jupyter Notebook の用途
Jupyter Notebook は、探索的データ解析(EDA)、データクレンジングとデータ変換、データ可視化、統計モデリング、機械学習、深層学習など、データサイエンスで行われるあらゆる処理に使用されています。
Jupyter Notebook を利用するメリット
Jupyter Notebook は、データチームが実際に行った作業を再現するのに有効です。使い方は簡単で、セルを 1 つずつ実行するだけです。実行するだけです。セルにはコード、マークダウン、リンク、画像を埋め込むことができ、コードが何をしているのかを容易に理解できます。
また、Jupyter Notebook は、Web インターフェースを通じて、標準的な出力形式(HTML、Powerpoint、LaTeX、PDF、ReStructuredText、Markdown、Python)に柔軟に変換できるため、データサイエンティストは自分の作業を他のユーザーと容易に共有できます。
Jupyter Notebook の仕組み
Jupyter Notebook は、フロントエンドの Web ページとバックエンドのカーネルの 2 つの要素で構成されています。Web ページでは、「セル」と呼ばれる長方形の枠にプログラミングコードやテキストを入力できます。ブラウザはそのコードをカーネルに渡し、カーネルはそのコードを実行して結果を返します。
Jupyter Notebook のデメリット
- 保守と同期の維持が困難:共同作業でコードを作成する場合、保守と同期の維持が困難です。
- コードの運用が困難:Jupyter Notebook には、機械学習モデルを運用するための統合やツールは組み込まれていません。
- スケールが困難:Jupyter Notebook はシングルノードのデータサイエン ス用に設計されています。データが大きすぎてコンピュータのメモリに収まらない場合、Jupyter Notebook の使用は著しく困難になります。
Databricks での Jupyter Notebook の利用
Databricks は、データサイエンスの強力なコラボレーションツールを提供します。Databricks の Notebook には、データの可視化とジョブによる運用化が組み込まれており、エンジニアリング、データサイエンス、機械学習の各チーム間で複数の言語を使用した共同作業を行うことができます。Databricks の無料トライアルでお試しいただけます。
Databricks における Jupyter Notebook のサポート
Databricks クラスタは、Jupyter エコシステムのオープンソースツール(表示・出力ツールなど)を利用するために IPython カーネルを使用するよう設定できます。また、.ipynb ファイルのインポート/エクスポートをサポートしており、Databricks 上においても Jupyter Notebook で中断したところから容易に再開できます。Databricks では、 Databricks 機械学習のランタイム内において、オープンソースの Jupyter のライブラリを長年サポートしています。
Databricks で IPython カーネルを使用するには
すぐに始められます。ドキュメントを参照し、Databricks の無料トライアルをご利用ください。