Tungstenプロジェクトは、よりスマートなメモリ使用、キャッシュを考慮したアルゴリズム、コード生成によってSparkの実行エンジンを最適化し、パフォーマンスをベアメタルに近づけます。
によって Databricks Staff による投稿
Tungsten は、Apache Spark の実行エンジンを変更する包括プロジェクトのコードネームです。Spark アプリケーション向けのメモリと CPU の効率を大幅に向上させることに重点を置き、性能を最新のハードウェアの限界に近づけます。
CPU の効率性を重視するのは、I/O やネットワーク通信よりも、CPU やメモリ使用量が Spark のワークロードのボトルネックになっているからです。この傾向は、ビッグデータワークロードの性能に関する最近の調査が示しています。
ブログを購読して、最新の投稿を受信トレイにお届けします。