ComeçarComece de graça

Tratar outliers com desvio padrão

Dado um basetable que tem uma variável "age". A idade é preenchida manualmente em um formulário online pelo doador e, portanto, está sujeita a erros de digitação e pode ter outliers. Substitua todos os valores menores que a idade média menos 3 vezes o desvio padrão de age por esse valor e substitua todos os valores maiores que a idade média mais 3 vezes o desvio padrão de age por esse valor.

Este exercício faz parte do curso

Análise Preditiva Intermediária em Python

Ver curso

Instruções do exercício

  • Imprima o valor máximo de "age".
  • Calcule a média e o desvio padrão de "age".
  • Calcule os limites inferior e superior usando a regra prática do desvio padrão.
  • Adicione uma variável "age_mod" ao basetable com os outliers substituídos e imprima o novo valor máximo de "age _mod".

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Show the maximum age 
print(___["___"].___())

# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()

# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____

# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____) 
                             for a in basetable["age"]]))
print(___["___"].___())
Editar e executar o código