Trainingdata lui transformeren

Het voorbereiden (preprocessen) van je invoervariabelen is een cruciale stap in Machine Learning en verbetert vaak de nauwkeurigheid van het model dat je maakt. In de vorige oefeningen is de Spotify-data al voor je voorbewerkt, maar het is belangrijk dat je weet hoe je dit zelf doet.

In deze oefening gebruik je het StandardScaler()-object, dat kolommen van een array zo transformeert dat ze een gemiddelde van nul en een standaarddeviatie van één hebben.

De Dask DataFrame met Spotify-nummers is beschikbaar in je omgeving als dask_df. Deze bevat zowel de doelvariabele met populariteitsscores als de invoervariabelen die je gebruikte om deze scores te voorspellen.

Deze oefening maakt deel uit van de cursus

Parallel programmeren met Dask in Python

Bekijk cursus

Oefeninstructies

Importeer de klasse StandardScaler() uit dask_ml.preprocessing.
Selecteer de kolom 'popularity' uit de DataFrame en wijs die toe aan de variabele y.
Maak een StandardScaler-object en fit dit op de X-data.
Gebruik de scaler om X te transformeren.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the StandardScaler class
from ____ import ____

X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]

# Select the target variable
y = ____

# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)

# Transform X
X = scaler.____
print(X)

Code bewerken en uitvoeren