メインコンテンツへジャンプ
ページ 1

Koalas:pandas から Apache Spark への容易な移行 – データラングリング(カテゴリ変数の導入)

April 24, 2019 Tony LiuTim Hunter による投稿 in
データブリックスは本日開催された Spark + AI Summit において、PySpark の DataFrame API を拡張してpandas と互換性を持たせる新しいオープンソースプロジェクトの Koalas(コアラズ) を発表しました。 Python のデータサイエンスはここ数年で急速に拡大し、pandas は今ではエコシステムの要となっています。データサイエンティストはデータセットを入手する場合、pandas を使って検証します。pandas はデータラングリング(データクレンジング/データクリーニングおよびデータ整形)や分析に最適のツールです。実際に、pandas の read_csv は、データサイエンスに取り組む多くの学生が最初に学習する実行コマンドです。 pandas に課題があるとすれば、ビッグデータのスケーリングに適していないことです。pandas...