Estandarización
Aunque la normalización es útil para escalar una columna entre dos puntos, resulta difícil comparar dos columnas escaladas si incluso una de ellas está demasiado afectada por valores atípicos. Una solución muy utilizada es la estandarización, donde en lugar de fijar un límite superior e inferior, centras los datos en su media y calculas cuántas desviaciones estándar se aleja cada punto de datos de la media.
Este ejercicio forma parte del curso
Ingeniería de características para Machine Learning en Python
Instrucciones del ejercicio
- Importa
StandardScalerdel módulopreprocessingdesklearn. - Instancia
StandardScaler()comoSS_scaler. - Ajusta el
StandardScalersobre la columnaAgedeso_numeric_df. - Transforma esa misma columna con el scaler que acabas de ajustar.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import StandardScaler
____
# Instantiate StandardScaler
SS_scaler = ____()
# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])
# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])
# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())