Koalas(PySpark)がDask よりも高速な理由 – SQL クエリ最適化など
Koalas は、Apache Spark 上で pandas API を実装するデータサイエンスライブラリです。Koalas を利用することで、データサイエンティストは、使い慣れた API を介してあらゆる規模のデータセットを扱うことができます。今回私たちは、ビッグデータ分析の際によく使用される pandas API を実装した並列計算ライブラリの Dask と、PySpark の Koalas とのパフォーマンス比較を行いました。ベンチマークテストを繰り返したところ、 Koalas のパフォーマンスは、Dask と比較して、シングルノードで 4 倍、クラスタで...