Aan de slagGa gratis aan de slag

Outliers behandelen met standaarddeviatie

Gegeven een basetable met één variabele "age". De leeftijd wordt handmatig ingevuld in een online formulier door de donateur en is daardoor gevoelig voor typefouten en kan outliers bevatten. Vervang alle waarden die lager zijn dan de gemiddelde leeftijd min 3 maal de standaarddeviatie van de leeftijd door die grenswaarde, en vervang alle waarden die hoger zijn dan de gemiddelde leeftijd plus 3 maal de standaarddeviatie van de leeftijd door die grenswaarde.

Deze oefening maakt deel uit van de cursus

Gevorderde voorspellende analyse in Python

Cursus bekijken

Oefeninstructies

  • Print de maximumwaarde van "age".
  • Bereken het gemiddelde en de standaarddeviatie van "age".
  • Bereken de onder- en bovengrens met de vuistregel op basis van de standaarddeviatie.
  • Voeg een variabele "age_mod" toe aan de basetable met vervangen outliers, en print de nieuwe maximumwaarde van "age _mod".

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Show the maximum age 
print(___["___"].___())

# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()

# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____

# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____) 
                             for a in basetable["age"]]))
print(___["___"].___())
Code bewerken en uitvoeren