Practica de estandarización
Es arriesgado usar KNN a ciegas con distribuciones desconocidas. Su rendimiento empeora mucho cuando las distribuciones de las características no están en la misma escala. Si no escalas las características, se desvirtúan los cálculos de distancia y obtendrás puntuaciones de anomalía poco realistas.
Una técnica habitual para contrarrestarlo es la estandarización, que consiste en restar la media de cada característica y dividir entre su desviación estándar. Así, la característica pasa a tener media 0 y varianza 1.
Practica la estandarización con el conjunto de datos females, que ya se ha cargado por ti.
Este ejercicio forma parte del curso
Detección de anomalías en Python
Instrucciones del ejercicio
- Crea una instancia de
StandardScaler()y guárdala comoss. - Extrae los arrays de características y objetivo en
Xyy. El objetivo es la columnaweightkg. - Ajusta
StandardScaler()a X y transforma al mismo tiempo. - Repite el proceso anterior, pero conservando los nombres de las columnas del DataFrame
X.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
from sklearn.preprocessing import StandardScaler
# Initialize a StandardScaler
ss = ____
# Extract feature and target arrays
X = ____
y = ____
# Fit/transform X
X_transformed = ____
# Fit/transform X but preserve the column names
X.____ = ____