Koalas:pandas から Apache Spark への容易な移行 – データラングリング(カテゴリ変数の導入)
データブリックスは本日開催された Spark + AI Summit において、PySpark の DataFrame API を拡張してpandas と互換性を持たせる新しいオープンソースプロジェクトの Koalas(コアラズ) を発表しました。 Python のデータサイエンスはここ数年で急速に拡大し、pandas は今ではエコシステムの要となっています。データサイエンティストはデータセットを入手する場合、pandas を使って検証します。pandas はデータラングリング(データクレンジング/データクリーニングおよびデータ整形)や分析に最適のツールです。実際に、pandas の read_csv は、データサイエンスに取り組む多くの学生が最初に学習する実行コマンドです。 pandas に課題があるとすれば、ビッグデータのスケーリングに適していないことです。pandas...