ComeçarComece de graça

Padronização

Embora a normalização seja útil para escalar uma coluna entre dois pontos de dados, é difícil comparar duas colunas escaladas se ao menos uma delas for muito afetada por outliers. Uma solução comum para isso é a padronização, em que, em vez de definir limites inferior e superior rígidos, você centraliza os dados na média e calcula quantos desvios padrão cada ponto de dados está distante da média.

Este exercício faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Instruções do exercício

  • Importe StandardScaler do módulo preprocessing do sklearn.
  • Instancie StandardScaler() como SS_scaler.
  • Faça o ajuste (fit) do StandardScaler na coluna Age de so_numeric_df.
  • Transforme a mesma coluna com o scaler que você acabou de ajustar.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import StandardScaler
____

# Instantiate StandardScaler
SS_scaler = ____()

# Fit SS_scaler to the data
____.____(so_numeric_df[['Age']])

# Transform the data using the fitted scaler
so_numeric_df['Age_SS'] = ____.____(so_numeric_df[['Age']])

# Compare the origional and transformed column
print(so_numeric_df[['Age_SS', 'Age']].head())
Editar e executar o código