Notebook はチームでの共有が可能で、複数の言語(R、Python、SQL、Scala)と任意のライブラリを使用できます。リアルタイムの共同編集、コメント作成、自動バージョニングの機能により、制御性と共同作業のシンプルさを同時に実現します。
ビルトインのインタラクティブなデータ視覚化ツールや、matplotlib や ggplot などのライブラリによって、新たな洞察を素早く発見できます。分析結果や Notebook は html または igynb 形式でのエクスポートが可能です。また、ダッシュボードを作成して最新の情報を共有できます。
データアクセス:オンプレミスやクラウド内のデータセットや任意のデータソースに迅速にアクセスできます。
多言語のサポート:多言語サポートのインタラクティブな Notebook でデータ探索ができます。R、Python、Scala、SQL といった複数のプログラミング言語を同一の Notebook で使用できます。
インタラクティブな視覚化:ポイントアンドクリックによる多様な可視化手法がサポートされています。matplotlib、ggplot、D3 などのスクリプトオプションも利用できます。
リアルタイムの共同編集:同一の Notebook をリアルタイムに共同編集できます。詳細な更新履歴機能により、変更内容の追跡が可能です。
コメント:共有 Notebook 内でコメントを付加し、チーム内に通知できます。
自動バージョニング:変更記録とバージョニングが自動的に行われるため、作業を中断したところから再開したり、変更を元に戻したりすることができます。
Git バージョニング: Git の統合により、堅牢なバージョニング機能を提供します。
サイドバーの実行:Notebook から MLFlow に、実験、パラメータ、結果を直接、自動的に記録します。以前の実行結果とコードバージョンは、サイドバーから容易に確認できます。
ダッシュボード:ダッシュボードを使ってチームメンバーや顧客と洞察を共有できます。また、Spark ベースのダッシュボードがインタラクティブなクエリも可能にしています。
Notebook をジョブとして実行:クリックあるいは API コールによって、Notebook や JAR を、耐障害性を備えた本番ジョブに変えます。
ジョブのスケジューラ:本番パイプラインのジョブのスケジューリングが可能です。
Notebook ワークフロー:ソースプログラミング言語の制御構造を使用して、マルチステージのパイプラインを作成します。
通知とログ:アラートを設定して監査ログに素早くアクセスすることで、監視とトラブルシューティングが容易になります。
権限の管理:共通のセキュリティモデルを使用して、個々のまたは複数の Notebook、実験へのアクセスを効率よく制御できます。
クラスタ:自動管理されたクラスタに Notebook を素早く接続し、コンピューティングを高効率で費用対効果の高い方法で大幅にスケールアップします。
統合:Tableau、Looker、PowerBI、RStudio、SnowFlake などの主要なツールとの連携が可能です。データサイエンティストやエンジニアは、使い慣れた言語やツールを使用できます。
インタラクティブな Notebook、実験、拡張ファイルのサポートによって、複雑なデータサイエンスプロジェクトを、ライフサイクル全体を通してより効果的に整理、共有、管理できます。また、API とジョブスケジューラが、複雑なパイプラインの迅速な自動化を可能にし、インタラクティブなダッシュボードが、分析結果への直接アクセスを可能にします。