CommencerCommencer gratuitement

Standardisation

La normalisation peut être utile pour ramener une colonne dans une plage donnée, mais il est difficile de comparer deux colonnes mises à l’échelle si l’une d’elles est fortement affectée par des valeurs aberrantes. Une solution couramment utilisée est la standardisation : au lieu de fixer des bornes supérieure et inférieure, vous recentrez les données autour de leur moyenne et calculez, pour chaque point, le nombre d’écarts types qui le séparent de la moyenne.

Cet exercice fait partie du cours

Feature engineering pour le Machine Learning en Python

Afficher le cours

Instructions

  • Importez StandardScaler depuis le module preprocessing de sklearn.
  • Instanciez StandardScaler() sous le nom SS_scaler.
  • Ajustez le StandardScaler sur la colonne Age de so_numeric_df.
  • Transformez la même colonne avec le scaler que vous venez d’ajuster.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import StandardScaler
____

# Instantiate StandardScaler
SS_scaler = ____()

# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])

# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])

# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())
Modifier et exécuter le code