Normaliser les variables

Passons maintenant à la dernière étape de la préparation des données. Vous allez mettre l’ensemble de données non asymétrique wholesale_boxcox sur la même échelle, c’est‑à‑dire que toutes les colonnes auront une moyenne égale à zéro et un écart type égal à 1. Vous utiliserez la fonction StandardScaler du module sklearn.preprocessing.

L’ensemble de données non asymétrique wholesale_coxbox que vous avez transformé dans l’exercice précédent a été importé comme DataFrame pandas. De plus, l’instance StandardScaler() a été initialisée sous le nom scaler.

Cet exercice fait partie du cours

<cours>Machine Learning pour le marketing en Python</cours>

Voir le cours

Instructions de l’exercice

Ajustez l’instance scaler initialisée sur le jeu de données transformé par Box‑Cox.
Transformez et stockez le jeu de données mis à l’échelle sous le nom wholesale_scaled.
Créez un DataFrame pandas à partir du jeu de données mis à l’échelle.
Affichez la moyenne et l’écart type pour toutes les colonnes.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Fit the initialized `scaler` instance on the Box-Cox transformed dataset
scaler.___(wholesale_boxcox)

# Transform and store the scaled dataset as `wholesale_scaled`
wholesale_scaled = scaler.___(wholesale_boxcox)

# Create a `pandas` DataFrame from the scaled dataset
wholesale_scaled_df = pd.DataFrame(data=___,
                                       index=wholesale_boxcox.___,
                                       columns=wholesale_boxcox.columns)

# Print the mean and standard deviation for all columns
print(wholesale_scaled_df.agg(['___','std']).round())

Modifier et exécuter le code