Machine-Learning-Pipelines
In den nächsten beiden Kapiteln durchläufst du jede Phase der Machine-Learning-Pipeline, von der Datenaufnahme bis zur Modellbewertung. Los geht’s!
Der Kern des Moduls pyspark.ml
sind die Klassen Transformer
und Estimator
. Fast alle anderen Klassen im Modul verhalten sich ähnlich wie diese beiden Basisklassen.
Transformer
-Klassen haben eine .transform()
-Methode, die einen DataFrame annimmt und einen neuen DataFrame zurückgibt; in der Regel den ursprünglichen, an den eine neue Spalte angehängt wurde. Du könntest zum Beispiel die Klasse Bucketizer
verwenden, um aus einem kontinuierlichen Merkmal diskrete Bins zu erstellen, oder die Klasse PCA
, um die Dimensionalität deines Datensatzes mithilfe der Hauptkomponentenanalyse zu reduzieren.
Estimator
-Klassen implementieren alle eine .fit()
-Methode. Auch diese Methoden nehmen einen DataFrame entgegen, geben aber statt eines weiteren DataFrames ein Modellobjekt zurück. Das kann z. B. StringIndexerModel
sein, um kategorische Daten, die als Strings gespeichert sind, in deine Modelle einzubeziehen, oder RandomForestModel
, das den Random-Forest-Algorithmus für Klassifizierung oder Regression verwendet.
Welche der folgenden Aussagen zum Machine Learning in Spark ist nicht korrekt?
Diese Übung ist Teil des Kurses
Einführung in PySpark
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
