Gérer les valeurs aberrantes avec l’écart type
Étant donné un basetable qui contient une variable « age ». L’âge est saisi manuellement dans un formulaire en ligne par le donateur, il est donc sujet aux erreurs de frappe et peut comporter des valeurs aberrantes. Remplacez toutes les valeurs inférieures à la moyenne de l’âge moins 3 fois l’écart type de l’âge par cette valeur, et remplacez toutes les valeurs supérieures à la moyenne de l’âge plus 3 fois l’écart type de l’âge par cette valeur.
Cet exercice fait partie du cours
Analytique prédictive intermédiaire en Python
Instructions
- Affichez la valeur maximale de « age ».
- Calculez la moyenne et l’écart type de « age ».
- Calculez les limites inférieure et supérieure à l’aide de la règle empirique basée sur l’écart type.
- Ajoutez une variable « age_mod » au basetable avec les valeurs aberrantes remplacées, puis affichez la nouvelle valeur maximale de « age _mod ».
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Show the maximum age
print(___["___"].___())
# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()
# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____
# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____)
for a in basetable["age"]]))
print(___["___"].___())