Aan de slagBegin gratis

Outliers behandelen met standaarddeviatie

Gegeven een basetable met één variabele "age". De leeftijd wordt handmatig ingevuld in een online formulier door de donateur en is daardoor gevoelig voor typefouten en kan outliers bevatten. Vervang alle waarden die lager zijn dan de gemiddelde leeftijd min 3 maal de standaarddeviatie van de leeftijd door die grenswaarde, en vervang alle waarden die hoger zijn dan de gemiddelde leeftijd plus 3 maal de standaarddeviatie van de leeftijd door die grenswaarde.

Deze oefening maakt deel uit van de cursus

Gevorderde voorspellende analyse in Python

Bekijk cursus

Oefeninstructies

  • Print de maximumwaarde van "age".
  • Bereken het gemiddelde en de standaarddeviatie van "age".
  • Bereken de onder- en bovengrens met de vuistregel op basis van de standaarddeviatie.
  • Voeg een variabele "age_mod" toe aan de basetable met vervangen outliers, en print de nieuwe maximumwaarde van "age _mod".

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Show the maximum age 
print(___["___"].___())

# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()

# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____

# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____) 
                             for a in basetable["age"]]))
print(___["___"].___())
Code bewerken en uitvoeren