Transformer paresseusement les données d’entraînement
Le prétraitement de vos variables d’entrée est une étape essentielle en Machine Learning et améliore souvent la précision du modèle que vous créez. Dans les deux derniers exercices, les données Spotify étaient déjà prétraitées pour vous, mais il est important de savoir le faire vous-même.
Dans cet exercice, vous utiliserez l’objet StandardScaler(), qui transforme les colonnes d’un tableau de sorte qu’elles aient une moyenne de zéro et un écart-type de un.
Le DataFrame Dask des morceaux Spotify est disponible dans votre environnement sous le nom dask_df. Il contient à la fois les scores de popularité cibles et les variables d’entrée que vous avez utilisées pour prédire ces scores.
Cet exercice fait partie du cours
Programmation parallèle avec Dask en Python
Instructions
- Importez la classe
StandardScaler()depuisdask_ml.preprocessing. - Sélectionnez la colonne
'popularity'du DataFrame et affectez-la à la variabley. - Créez un objet
StandardScaleret ajustez-le sur les donnéesX. - Utilisez le scaler pour transformer
X.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the StandardScaler class
from ____ import ____
X = dask_df[['duration_ms', 'explicit', 'danceability', 'acousticness', 'instrumentalness', 'tempo']]
# Select the target variable
y = ____
# Create a StandardScaler object and fit it on X
scaler = ____
scaler.____(____)
# Transform X
X = scaler.____
print(X)