Trasformare pigramente i dati di training

Preprocessare le variabili in input è un passaggio fondamentale nel Machine Learning e spesso migliora l’accuratezza del modello che crei. Negli ultimi esercizi, i dati di Spotify sono stati preprocessati per te, ma è importante che tu sappia farlo in autonomia.

In questo esercizio userai l’oggetto StandardScaler(), che trasforma le colonne di un array in modo che abbiano media zero e deviazione standard pari a uno.

Il Dask DataFrame dei brani Spotify è disponibile nel tuo ambiente come dask_df. Contiene sia i punteggi di popolarità target sia le variabili in input che hai usato per predire questi punteggi.

Questo esercizio fa parte del corso

Programmazione parallela con Dask in Python

Visualizza corso

Istruzioni dell'esercizio

Importa la classe StandardScaler() da dask_ml.preprocessing.
Seleziona la colonna 'popularity' dal DataFrame e assegnala alla variabile y.
Crea un oggetto StandardScaler ed esegui il fit sui dati X.
Usa lo scaler per trasformare X.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the StandardScaler class
from ____ import ____

X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]

# Select the target variable
y = ____

# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)

# Transform X
X = scaler.____
print(X)

Modifica ed esegui il codice