CommencerCommencer gratuitement

Gérer les valeurs aberrantes avec l’écart type

Étant donné un basetable qui contient une variable « age ». L’âge est saisi manuellement dans un formulaire en ligne par le donateur, il est donc sujet aux erreurs de frappe et peut comporter des valeurs aberrantes. Remplacez toutes les valeurs inférieures à la moyenne de l’âge moins 3 fois l’écart type de l’âge par cette valeur, et remplacez toutes les valeurs supérieures à la moyenne de l’âge plus 3 fois l’écart type de l’âge par cette valeur.

Cet exercice fait partie du cours

Analytique prédictive intermédiaire en Python

Afficher le cours

Instructions

  • Affichez la valeur maximale de « age ».
  • Calculez la moyenne et l’écart type de « age ».
  • Calculez les limites inférieure et supérieure à l’aide de la règle empirique basée sur l’écart type.
  • Ajoutez une variable « age_mod » au basetable avec les valeurs aberrantes remplacées, puis affichez la nouvelle valeur maximale de « age _mod ».

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Show the maximum age 
print(___["___"].___())

# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()

# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____

# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____) 
                             for a in basetable["age"]]))
print(___["___"].___())
Modifier et exécuter le code