Trainingdata lui transformeren
Het voorbereiden (preprocessen) van je invoervariabelen is een cruciale stap in Machine Learning en verbetert vaak de nauwkeurigheid van het model dat je maakt. In de vorige oefeningen is de Spotify-data al voor je voorbewerkt, maar het is belangrijk dat je weet hoe je dit zelf doet.
In deze oefening gebruik je het StandardScaler()-object, dat kolommen van een array zo transformeert dat ze een gemiddelde van nul en een standaarddeviatie van één hebben.
De Dask DataFrame met Spotify-nummers is beschikbaar in je omgeving als dask_df. Deze bevat zowel de doelvariabele met populariteitsscores als de invoervariabelen die je gebruikte om deze scores te voorspellen.
Deze oefening maakt deel uit van de cursus
Parallel programmeren met Dask in Python
Oefeninstructies
- Importeer de klasse
StandardScaler()uitdask_ml.preprocessing. - Selecteer de kolom
'popularity'uit de DataFrame en wijs die toe aan de variabeley. - Maak een
StandardScaler-object en fit dit op deX-data. - Gebruik de scaler om
Xte transformeren.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the StandardScaler class
from ____ import ____
X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]
# Select the target variable
y = ____
# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)
# Transform X
X = scaler.____
print(X)