Praticando padronização

É arriscado usar KNN às cegas em distribuições desconhecidas. O desempenho cai bastante quando as distribuições dos atributos não estão na mesma escala. Atributos sem escala adequada distorcem os cálculos de distância e, com isso, retornam escores de anomalia irreais.

Uma técnica comum para contornar isso é a padronização, que envolve subtrair a média de um atributo e dividi-lo pelo desvio padrão. Isso faz com que o atributo tenha média 0 e variância 1.

Pratique a padronização no conjunto de dados females, que já foi carregado para você.

Este exercicio faz parte do curso

Detecção de Anomalias em Python

Ver curso

Instruções do exercicio

Crie uma instância de StandardScaler() e armazene-a como ss.
Extraia os arrays de atributos e alvo em X e y. O alvo é a coluna weightkg.
Ajuste o StandardScaler() em X e transforme-o simultaneamente.
Repita o processo acima, mas preservando os nomes das colunas do DataFrame X.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

from sklearn.preprocessing import StandardScaler

# Initialize a StandardScaler
ss = ____

# Extract feature and target arrays
X = ____ 
y = ____

# Fit/transform X
X_transformed = ____

# Fit/transform X but preserve the column names
X.____ = ____

Editar e Executar Código