分散XGBoostとLightGBMモデルの軽量なデプロイパターン
翻訳:Saki Kitaoka. - Original Blog Link データサイエンティストが機械学習ソリューションを開発する際に遭遇する一般的な課題は、サーバーのメモリに収まらないほど大きなデータセットでモデルをトレーニングすることです。これは、顧客の離反や傾向を予測するモデルをトレーニングする際に、数千万人のユニークな顧客を扱う必要がある場合に発生します。ある期間に行われた何億もの広告インプレッションに関連するリフトを計算する必要があるとき、このようなことが起こります。また、何十億ものオンラインインタラクションの異常行動を評価する必要がある場合にも、この問題が発生します。 この課題を克服するために一般的に採用されているソリューションの1つは、Apache Sparkデータフレームに対して動作するようにモデルを書き換えることです。Sparkデータフレームでは、データセットはパーティションと呼ばれるより小さなサブセットに分割され、Sparkクラスタの集団リソースに分散されます。 より多くのメモリが必要ですか