Padronizando variáveis
É importante garantir que as variáveis de entrada para o cálculo de distância do kNN estejam padronizadas usando a função scale(). A padronização assegura que variáveis com média ou variância maiores não influenciem desproporcionalmente a pontuação de distância do kNN.
Este exercício faz parte do curso
Introduction to Anomaly Detection in R
Instruções do exercício
- Aplique a função
summary()aos dadoswinepara calcular os valores de média, mínimo e máximo depHealcohol. - Use a função
scale()para criar uma versão padronizada dos dadoswinechamadawine_scaled. - Use a função
summary()emwine_scaledpara verificar que as médias e os intervalos mudaram.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Without standardization, features have different scales
summary(wine)
# Standardize the wine columns
wine_scaled <- ___
# Standardized features have similar means and quartiles
___(___)