ComeçarComece de graça

Transformações de treino e teste (II)

Assim como aplicar o mesmo escalonador aos conjuntos de treino e teste, se você removeu outliers do conjunto de treino, provavelmente vai querer fazer o mesmo no conjunto de teste. Mais uma vez, você deve garantir que use os limites calculados apenas a partir do conjunto de treino para remover outliers do conjunto de teste.

Assim como no último exercício, dividimos o DataFrame so_numeric_df em conjuntos de treino (so_train_numeric) e teste (so_test_numeric).

Este exercício faz parte do curso

Feature Engineering for Machine Learning in Python

Ver curso

Instruções do exercício

  • Calcule o desvio padrão e a média da coluna ConvertedSalary.
  • Calcule os limites superior e inferior como três desvios padrão em relação à média, em ambas as direções.
  • Faça o recorte do DataFrame so_test_numeric para manter todas as linhas em que ConvertedSalary esteja entre os limites inferior e superior.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____

cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off

# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
                             & (so_test_numeric['ConvertedSalary'] > ____)]
Editar e executar o código