Gestire gli outlier con la deviazione standard
Dato un basetable che contiene una variabile "age". L’età viene inserita manualmente in un modulo online dal donatore ed è quindi soggetta a errori di digitazione e può avere outlier. Sostituisci tutti i valori inferiori alla media dell’età meno 3 volte la deviazione standard dell’età con tale valore e sostituisci tutti i valori superiori alla media dell’età più 3 volte la deviazione standard dell’età con tale valore.
Questo esercizio fa parte del corso
Analisi predittiva intermedia in Python
Istruzioni dell'esercizio
- Stampa il valore massimo di "age".
- Calcola la media e la deviazione standard di "age".
- Calcola i limiti inferiore e superiore usando la regola empirica della deviazione standard.
- Aggiungi una variabile "age_mod" al basetable con gli outlier sostituiti e stampa il nuovo valore massimo di "age _mod".
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Show the maximum age
print(___["___"].___())
# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()
# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____
# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____)
for a in basetable["age"]]))
print(___["___"].___())