Practica de estandarización

Es arriesgado usar KNN a ciegas con distribuciones desconocidas. Su rendimiento empeora mucho cuando las distribuciones de las características no están en la misma escala. Si no escalas las características, se desvirtúan los cálculos de distancia y obtendrás puntuaciones de anomalía poco realistas.

Una técnica habitual para contrarrestarlo es la estandarización, que consiste en restar la media de cada característica y dividir entre su desviación estándar. Así, la característica pasa a tener media 0 y varianza 1.

Practica la estandarización con el conjunto de datos females, que ya se ha cargado por ti.

Este ejercicio forma parte del curso

Detección de anomalías en Python

Ver curso

Instrucciones del ejercicio

Crea una instancia de StandardScaler() y guárdala como ss.
Extrae los arrays de características y objetivo en X y y. El objetivo es la columna weightkg.
Ajusta StandardScaler() a X y transforma al mismo tiempo.
Repite el proceso anterior, pero conservando los nombres de las columnas del DataFrame X.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

from sklearn.preprocessing import StandardScaler

# Initialize a StandardScaler
ss = ____

# Extract feature and target arrays
X = ____ 
y = ____

# Fit/transform X
X_transformed = ____

# Fit/transform X but preserve the column names
X.____ = ____

Editar y ejecutar código