Apache SparkTM と Databricks の比較


Apache Spark は、高速性、使いやすさ、広範なユースケースに対応する API などのメリットを提供します。
  • データ統合と ETL
  • 対話型分析
  • 機械学習と高度な分析
  • リアルタイムのデータ処理

v


Databricks は Spark 上に構築されており、次のような利点をもたらします。
  • 信頼性が高く、効率的なデータパイプライン
  • 高効率、大規模なデータサイエンス

詳しくはこちらのページをご覧ください。

機能比較

Databricks

さらに詳しく

はい いいえ
複数のバージョンの Spark を実行 はい いいえ
クラウドストレージアクセスに最適化された組み込みファイルシステム (AWS S3、Redshift、Azure Blob) はい いいえ
SQL および Python ワークロード用のリソースの自動設定を提供するサーバーレスプール はい いいえ
最適利用のための Spark ネイティブのきめ細やかなリソースの共有 はい いいえ
計算リソースの障害の分離 はい いいえ
S3 への高速な書き込み はい いいえ
結合およびフィルタリング中の計算の最適化 はい いいえ
短期のリリースサイクル はい いいえ
自動スケーリング計算 はい いいえ
ローカルストレージの自動スケーリング はい いいえ
クラスターの高可用性 はい いいえ
複数ユーザーによるクラスターの共有 はい いいえ
スポットインスタンスとオンデマンドインスタンス間の自動移行 はい いいえ
第 2 レベルの請求 はい いいえ

はい いいえ

ACID トランザクション はい いいえ
スキーマ管理 はい いいえ
バッチ/ストリームの読み取り/書き込みのサポート はい いいえ
データのバージョン管理 はい いいえ
パフォーマンスの最適化 はい いいえ

はい いいえ
複数言語(SQL、Python、R、Scala)に対応する対話型 Notebook はい いいえ
リアルタイムでのコラボレーション はい いいえ
ノートブックの改訂履歴と GitHub 統合 はい いいえ
ワンクリックによる視覚化 はい いいえ
対話型ダッシュボードとしてノートブックを公開 はい いいえ

はい いいえ
Spark ジョブ監視アラート はい いいえ
ワンクリックでノートブックから Spark ジョブにデプロイ はい いいえ
ノートブックでワークフローを構築するための API はい いいえ
監視付きの運用ストリーミング はい いいえ

さらに詳しく

はい いいえ
ノートブック、クラスター、ジョブ、構造化データに対するアクセス制御 はい いいえ
監査ログ はい いいえ
SAML 2.0 対応の SSO はい いいえ
データの暗号化 (流れているデータおよび保存されているデータ) はい いいえ
コンプライアンス (HIPAA、SOC 2 Type 2) はい いいえ

はい いいえ
認証された ODBC/JDBC(Tableau、Lookerなど)を介して他の BI ツールに接続する はい いいえ
REST API はい いいえ
データソースコネクタ はい いいえ

はい いいえ
Spark を設計したコミッターによるヘルプとサポート はい いいえ
SQL サポート はい いいえ

関連リソース

クラウドでのビッグデータ SQL プラットフォームのベンチマーク

ブログ

 

性能問題を発生させずに分析データ量を 20 倍

導入事例

 

マネージド型 DELTA LAKE:最高のデータレイク、ウェアハウス、ストリーミングシステム

デモ