Transformações de treino e teste (II)
Assim como aplicar o mesmo escalonador aos conjuntos de treino e teste, se você removeu outliers do conjunto de treino, provavelmente vai querer fazer o mesmo no conjunto de teste. Mais uma vez, você deve garantir que use os limites calculados apenas a partir do conjunto de treino para remover outliers do conjunto de teste.
Assim como no último exercício, dividimos o DataFrame so_numeric_df em conjuntos de treino (so_train_numeric) e teste (so_test_numeric).
Este exercício faz parte do curso
Feature Engineering for Machine Learning in Python
Instruções do exercício
- Calcule o desvio padrão e a média da coluna
ConvertedSalary. - Calcule os limites superior e inferior como três desvios padrão em relação à média, em ambas as direções.
- Faça o recorte do DataFrame
so_test_numericpara manter todas as linhas em queConvertedSalaryesteja entre os limites inferior e superior.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
train_std = so_train_numeric['ConvertedSalary'].____
train_mean = so_train_numeric['ConvertedSalary'].____
cut_off = train_std * 3
train_lower, train_upper = ____, train_mean + cut_off
# Trim the test DataFrame
trimmed_df = so_test_numeric[(so_test_numeric['ConvertedSalary'] < ____) \
& (so_test_numeric['ConvertedSalary'] > ____)]