分散XGBoostとLightGBMモデルの軽量なデプロイパターン
翻訳:Saki Kitaoka. - Original Blog Link データサイエンティストが機械学習ソリューションを開発する際に遭遇する一般的な課題は、サーバーのメモリに収まらないほど大きなデータセットでモデルをトレーニングすることです。これは、顧客の離反や傾向を予測するモデルをトレーニングする際に、数千万人のユニークな顧客を扱う必要がある場合に発生します。ある期間に行われた何億もの広告インプレッションに関連するリフトを計算する必要があるとき、このようなことが起こります。また、何十億ものオンラインインタラクションの異常行動を評価する必要がある場合にも、この問題が発生します。 この課題を克服するために一般的に採用されているソリューションの1つは、Apache Sparkデータフレームに対して動作するようにモデルを書き換えることです。Sparkデータフレームでは、データセットはパーティションと呼ばれるより小さなサブセットに分割され、Sparkクラスタの集団リソースに分散されます。 より多くのメモリが必要ですか
Apache SparkによるCOMTRADEファイルを用いたグリッドエッジ分析の高速化
この ソリューションアクセラレータ とブログは、シュナイダーエレクトリック社との共同作業により作成されました。Schneider Electric Distinguished Technical Expert であり、COMTRADE-2013 規格の改訂に焦点を当てた IEEE/IEC Dual Logo Maintenance Team の幹事を務める Dan Sabin 氏に、その専門知識を提供していただいたことに感謝します。 Original : Accelerating Grid-Edge Analytics...