머신 러닝 라이브러리(MLlib)
Apache Spark의 머신 러닝 라이브러리(Machine Learning Library, MLlib)는 단순성, 확장성, 다른 툴과의 통합을 염두에 두고 고안하였습니다. 데이터 사이언티스트는 Spark의 확장성, 언어 호환성과 속도를 활용하여 데이터 문제점과 모델에만 집중할 수 있습니다. 즉 분산형 데이터를 둘러싼 복잡한 문제(인프라, 구성 등)를 해결하는 데 시간을 뺏기지 않아도 됩니다. MLlib은 Spark 기반으로 구축된 확장할 수 있는 머신 러닝 라이브러리로 보편적인 학습 알고리즘과 유틸리티로 구성되어 있습니다. 예를 들어 분류, 회귀, 클러스터링, 공동 작업 필터링, 차원 감소와 기본 최적화 기본 형식(primitive) 등이 대표적입니다. Spark MLLib은 Spark SQL, Spark Streaming 및 DataFrame과 같은 다른 Spark 구성 요소와 원활하게 통합되며 Databricks Runtime으로 설치됩니다. 이 라이브러리는 Spark 애플리케이션의 일부분으로 Java, Scala 및 Python에서 사용할 수 있으므로 완료된 워크플로 내에 포함할 수 있습니다. MLlib을 사용하면 모델 전처리, 먼징(munging), 교육이나 데이터에 관한 대규모 예측 등의 작업을 할 수 있습니다. 심지어 MLlib에서 교육한 모델을 사용하여 Structured Streaming에서 예측을 할 수도 있습니다. Spark는 정교한 머신 러닝 API를 제공하여 다양한 머신 러닝 작업을 수행하는 데 쓸 수 있습니다. 분류부터 회귀, 클러스터링부터 딥러닝까지 많은 것이 가능합니다.