Standardisation
La normalisation peut être utile pour ramener une colonne dans une plage donnée, mais il est difficile de comparer deux colonnes mises à l’échelle si l’une d’elles est fortement affectée par des valeurs aberrantes. Une solution couramment utilisée est la standardisation : au lieu de fixer des bornes supérieure et inférieure, vous recentrez les données autour de leur moyenne et calculez, pour chaque point, le nombre d’écarts types qui le séparent de la moyenne.
Cet exercice fait partie du cours
Feature engineering pour le Machine Learning en Python
Instructions
- Importez
StandardScalerdepuis le modulepreprocessingdesklearn. - Instanciez
StandardScaler()sous le nomSS_scaler. - Ajustez le
StandardScalersur la colonneAgedeso_numeric_df. - Transformez la même colonne avec le scaler que vous venez d’ajuster.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import StandardScaler
____
# Instantiate StandardScaler
SS_scaler = ____()
# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])
# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])
# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())