Trasformare pigramente i dati di training
Preprocessare le variabili in input è un passaggio fondamentale nel Machine Learning e spesso migliora l’accuratezza del modello che crei. Negli ultimi esercizi, i dati di Spotify sono stati preprocessati per te, ma è importante che tu sappia farlo in autonomia.
In questo esercizio userai l’oggetto StandardScaler(), che trasforma le colonne di un array in modo che abbiano media zero e deviazione standard pari a uno.
Il Dask DataFrame dei brani Spotify è disponibile nel tuo ambiente come dask_df. Contiene sia i punteggi di popolarità target sia le variabili in input che hai usato per predire questi punteggi.
Questo esercizio fa parte del corso
Programmazione parallela con Dask in Python
Istruzioni dell'esercizio
- Importa la classe
StandardScaler()dadask_ml.preprocessing. - Seleziona la colonna
'popularity'dal DataFrame e assegnala alla variabiley. - Crea un oggetto
StandardScalered esegui il fit sui datiX. - Usa lo scaler per trasformare
X.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the StandardScaler class
from ____ import ____
X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]
# Select the target variable
y = ____
# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)
# Transform X
X = scaler.____
print(X)