Estandarizar variables
Es importante asegurarte de que las variables de entrada para el cálculo de la distancia kNN estén estandarizadas usando la función scale(). La estandarización evita que variables con media o varianza grandes influyan de forma desproporcionada en la puntuación de distancia kNN.
Este ejercicio forma parte del curso
Introducción a la detección de anomalías en R
Instrucciones del ejercicio
- Aplica la función
summary()a los datoswinepara calcular los valores de media, mínimo y máximo depHyalcohol. - Usa la función
scale()para crear una versión estandarizada de los datoswinellamadawine_scaled. - Vuelve a usar
summary()sobrewine_scaledpara comprobar que la media y los rangos han cambiado.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Without standardization, features have different scales
summary(wine)
# Standardize the wine columns
wine_scaled <- ___
# Standardized features have similar means and quartiles
___(___)