機械学習ライブラリ(MLlib)
Databricks 無料トライアル
Apache Spark の機械学習ライブラリ(MLlib)とは、シンプルでスケーラビリティが高く、他のツールと容易に統合できるように設計された、機械学習を実装するためのツールです。Sparkのスケーラビリティ、言語の互換性、高速性により、データサイエンティストは、分散データを取り巻く複雑さ(インフラストラクチャ、構成など)の解決では なく、データの問題とモデルに集中できます。Spark 上に構築されたMLlibは、分類、回帰、クラスタリング、協調フィルタリング、次元削減、基になる最適化プリミティブなど、一般的な学習アルゴリズムとユーティリティで構成されるスケーラブルな機械学習ライブラリです。Spark MLLibは、Spark SQL、Spark Streaming、 DataFrame などの他の Spark コンポーネントとシームレスに統合し、Databricks Runtimeにインストールされます。このライブラリは、Spark アプリケーションの一部として Java、Scala、および Python で使用可能であり、完全なワークフローに含めることができます。MLlibにより、データの前処理、書き換え、モデルのトレーニング、および大規模予測を行うことができますMLlibでトレーニングされたモデルを使用して、構造化ストリーミングで予測を行うことも可能です。Sparkは、分類から回帰、クラスタリング、深層学習まで、さまざまな機械学習タスクを実行するための高度な機械学習APIを提供します。