Outliers behandelen met standaarddeviatie
Gegeven een basetable met één variabele "age". De leeftijd wordt handmatig ingevuld in een online formulier door de donateur en is daardoor gevoelig voor typefouten en kan outliers bevatten. Vervang alle waarden die lager zijn dan de gemiddelde leeftijd min 3 maal de standaarddeviatie van de leeftijd door die grenswaarde, en vervang alle waarden die hoger zijn dan de gemiddelde leeftijd plus 3 maal de standaarddeviatie van de leeftijd door die grenswaarde.
Deze oefening maakt deel uit van de cursus
Gevorderde voorspellende analyse in Python
Oefeninstructies
- Print de maximumwaarde van "age".
- Bereken het gemiddelde en de standaarddeviatie van "age".
- Bereken de onder- en bovengrens met de vuistregel op basis van de standaarddeviatie.
- Voeg een variabele "age_mod" toe aan de basetable met vervangen outliers, en print de nieuwe maximumwaarde van "age _mod".
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Show the maximum age
print(___["___"].___())
# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()
# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____
# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____)
for a in basetable["age"]]))
print(___["___"].___())