Aan de slagGa gratis aan de slag

Machine Learning-pijplijnen

In de komende twee hoofdstukken doorloop je elke stap van de machine learning-pijplijn, van datainname tot model-evaluatie. Aan de slag!

De kern van de pyspark.ml-module bestaat uit de klassen Transformer en Estimator. Bijna alle andere klassen in de module gedragen zich vergelijkbaar met deze twee basisklassen.

Transformer-klassen hebben een .transform()-methode die een DataFrame inneemt en een nieuw DataFrame teruggeeft; meestal het oorspronkelijke met een extra kolom erbij. Zo kun je bijvoorbeeld de klasse Bucketizer gebruiken om discrete bakken te maken van een continue feature, of de klasse PCA om de dimensionaliteit van je gegevensset te verminderen met principal component analysis.

Estimator-klassen implementeren allemaal een .fit()-methode. Deze methoden nemen ook een DataFrame, maar in plaats van een ander DataFrame terug te geven, leveren ze een modelobject op. Dit kan iets zijn als een StringIndexerModel om categorische data die als string is opgeslagen in je modellen op te nemen, of een RandomForestModel dat het random forest-algoritme gebruikt voor classificatie of regressie.

Welke van de volgende uitspraken is niet waar over machine learning in Spark?

Deze oefening maakt deel uit van de cursus

Basis van PySpark

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen