メインコンテンツへジャンプ

Apache Spark™

Apache Spark とは、ビッグデータと機械学習のための極めて高速な分散処理フレームワークです。これはもともと、2009 年にカリフォルニア大学バークレー校で開発されました。

largest open source apache spark image

データ処理で最大のオープンソースプロジェクト

ビッグデータ分析に最適なオープンソースの分散処理システムであるApache Sparkはそのリリース以来、さまざまな業種の企業に採用され、急速な拡大を遂げています。Netflix、Yahoo、eBay などのインターネット大手も、Spark を大規模にデプロイし、8000 を超えるノードのクラスターで、複数のペタバイトデータをまとめて処理しています。Apache Spark は現在、250 を超える組織から 1000 名以上が参加する、ビッグデータの最大のオープンソースコミュニティへと急速に成長しています。
 

Databricks は、カリフォルニア大学バークレー校で Spark の研究プロジェクトを開始したチームによって 2013 年に設立されました。

Apache Spark は 100% オープンソースで、ベンダーに依存しない Apache Software Foundation によってホストされています。Databricks では、このオープンな開発モデルを維持することに全力で取り組んでいます。Databricks は Spark コミュニティと協力し、開発とコミュニティの活動の両方を通じて Apache Spark プロジェクトに大きく貢献しています。

Apache Spark とは何か - Hadoopに対する Apache Spark の優位性

スピード

ボトムアップでパフォーマンスを向上させるように設計された Spark は、メモリコンピューティングやその他の最適化を活用することで、Hadoop の 100 倍の速度で大規模データを処理できます。また、Spark はデータがディスクに格納されている場合にも高速処理が可能です。現在、大規模なディスク上のソートについて、世界記録を保持しています。

使いやすさ

Spark は大規模なデータセットを操作するための使いやすい API を備えています。これには、データを変換するための 100 以上の演算子と、半構造化データを操作するための使い慣れたデータフレーム API が含まれています。

統合エンジン

Spark は、SQL クエリ、ストリーミングデータ、機械学習、グラフ処理のサポートといった、高レベルのライブラリと一緒にパッケージ化されています。これらの標準ライブラリは開発者の生産性を向上させます。また、シームレスに組み合わせることで複雑なワークフローを作成することができます。

Databricks クラウドで Apache Spark を無料でお試しください。

Databricks の統合分析プラットフォームは、分散処理システムの Spark、対話型ノートブック、統合されたワークフロー、およびエンタープライズセキュリティについて、5 倍のパフォーマンスを提供します。これらは全て、フルマネージド型のクラウドプラットフォームで実行されます。

オープンソースの Apache Spark プロジェクトはこちらからダウンロード可能です。