Estandarización

Aunque la normalización es útil para escalar una columna entre dos puntos, resulta difícil comparar dos columnas escaladas si incluso una de ellas está demasiado afectada por valores atípicos. Una solución muy utilizada es la estandarización, donde en lugar de fijar un límite superior e inferior, centras los datos en su media y calculas cuántas desviaciones estándar se aleja cada punto de datos de la media.

Este ejercicio forma parte del curso

Ingeniería de características para Machine Learning en Python

Ver curso

Instrucciones del ejercicio

Importa StandardScaler del módulo preprocessing de sklearn.
Instancia StandardScaler() como SS_scaler.
Ajusta el StandardScaler sobre la columna Age de so_numeric_df.
Transforma esa misma columna con el scaler que acabas de ajustar.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Import StandardScaler
____

# Instantiate StandardScaler
SS_scaler = ____()

# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])

# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])

# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())

Editar y ejecutar código