Transformer paresseusement les données d’entraînement

Le prétraitement de vos variables d’entrée est une étape essentielle en Machine Learning et améliore souvent la précision du modèle que vous créez. Dans les deux derniers exercices, les données Spotify étaient déjà prétraitées pour vous, mais il est important de savoir le faire vous-même.

Dans cet exercice, vous utiliserez l’objet StandardScaler(), qui transforme les colonnes d’un tableau de sorte qu’elles aient une moyenne de zéro et un écart-type de un.

Le DataFrame Dask des morceaux Spotify est disponible dans votre environnement sous le nom dask_df. Il contient à la fois les scores de popularité cibles et les variables d’entrée que vous avez utilisées pour prédire ces scores.

Cet exercice fait partie du cours

<cours>Programmation parallèle avec Dask en Python</cours>

Voir le cours

Instructions de l’exercice

Importez la classe StandardScaler() depuis dask_ml.preprocessing.
Sélectionnez la colonne 'popularity' du DataFrame et affectez-la à la variable y.
Créez un objet StandardScaler et ajustez-le sur les données X.
Utilisez le scaler pour transformer X.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the StandardScaler class
from ____ import ____

X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]

# Select the target variable
y = ____

# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)

# Transform X
X = scaler.____
print(X)

Modifier et exécuter le code