Machine Learning Library (MLlib)

DATABRICKS KOSTENLOS TESTEN

Die Machine Learning Library (MLlib) von Apache Spark ist auf Einfachheit, Skalierbarkeit und bequeme Integration mit anderen Tools ausgelegt. Dank der Skalierbarkeit, der Sprachkompatibilität und der Geschwindigkeit von Spark können sich Data Scientists ihren Datenproblemen und -modellen widmen, statt sich mit den komplexen Aspekten verteilter Daten (Infrastruktur, Konfigurationen usw.) auseinandersetzen zu müssen. MLlib setzt auf Spark auf. Es handelt sich um eine skalierbare Machine-Learning-Bibliothek, die aus gängigen Lernalgorithmen und Hilfsprogrammen etwa für Klassifizierung, Regression, Clustering, kollaboratives Filtern, Dimensionalitätsreduktion und zugrundeliegende Optimierungsprimitive besteht. Spark MLLib integriert sich nahtlos in andere Spark-Komponenten wie Spark SQL, Spark Streaming und DataFrames und wird in der Databricks-Laufzeitumgebung installiert. Die Bibliothek kann in Java, Scala und Python als Bestandteil von Spark-Anwendungen genutzt und daher in komplette Workflows eingefügt werden. MLlib ermöglicht Preprocessing, Munging, das Trainieren von Modellen und das datengestützte Erstellen von Prognosen im großen Maßstab. Sie können sogar in MLlib trainierte Modelle verwenden, um Vorhersagen in Structured Streaming zu treffen. Spark stellt eine ausgefeilte API für maschinelles Lernen zur Verfügung, mit der Sie eine Vielzahl von Machine-Learning-Aufgaben erledigen können – von der Klassifizierung über Regression und Clustering bis hin zu Deep Learning.

Zusätzliche Ressourcen

Zurück zum Glossar