Tratar outliers com desvio padrão
Dado um basetable que tem uma variável "age". A idade é preenchida manualmente em um formulário online pelo doador e, portanto, está sujeita a erros de digitação e pode ter outliers. Substitua todos os valores menores que a idade média menos 3 vezes o desvio padrão de age por esse valor e substitua todos os valores maiores que a idade média mais 3 vezes o desvio padrão de age por esse valor.
Este exercício faz parte do curso
Análise Preditiva Intermediária em Python
Instruções do exercício
- Imprima o valor máximo de "age".
- Calcule a média e o desvio padrão de "age".
- Calcule os limites inferior e superior usando a regra prática do desvio padrão.
- Adicione uma variável "age_mod" ao basetable com os outliers substituídos e imprima o novo valor máximo de "age _mod".
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Show the maximum age
print(___["___"].___())
# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()
# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____
# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____)
for a in basetable["age"]]))
print(___["___"].___())