Padronização
Embora a normalização seja útil para escalar uma coluna entre dois pontos de dados, é difícil comparar duas colunas escaladas se ao menos uma delas for muito afetada por outliers. Uma solução comum para isso é a padronização, em que, em vez de definir limites inferior e superior rígidos, você centraliza os dados na média e calcula quantos desvios padrão cada ponto de dados está distante da média.
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Instruções do exercício
- Importe
StandardScalerdo módulopreprocessingdosklearn. - Instancie
StandardScaler()comoSS_scaler. - Faça o ajuste (fit) do
StandardScalerna colunaAgedeso_numeric_df. - Transforme a mesma coluna com o scaler que você acabou de ajustar.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import StandardScaler
____
# Instantiate StandardScaler
SS_scaler = ____()
# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])
# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])
# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())