IniziaInizia gratis

Gestire gli outlier con la deviazione standard

Dato un basetable che contiene una variabile "age". L’età viene inserita manualmente in un modulo online dal donatore ed è quindi soggetta a errori di digitazione e può avere outlier. Sostituisci tutti i valori inferiori alla media dell’età meno 3 volte la deviazione standard dell’età con tale valore e sostituisci tutti i valori superiori alla media dell’età più 3 volte la deviazione standard dell’età con tale valore.

Questo esercizio fa parte del corso

Analisi predittiva intermedia in Python

Visualizza il corso

Istruzioni dell'esercizio

  • Stampa il valore massimo di "age".
  • Calcola la media e la deviazione standard di "age".
  • Calcola i limiti inferiore e superiore usando la regola empirica della deviazione standard.
  • Aggiungi una variabile "age_mod" al basetable con gli outlier sostituiti e stampa il nuovo valore massimo di "age _mod".

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Show the maximum age 
print(___["___"].___())

# Calculate mean and standard deviation of age
mean_age = ____["____"].____()
std_age = ____["____"].____()

# Calculate the lower and upper limits
lower_limit = ____ - ____ * ____
upper_limit = ____ + ____ * ____

# Add a variable age_no_outliers to the basetable with outliers replaced
basetable["age_mod"] = (pd.Series([____(____(____, ____), ____) 
                             for a in basetable["age"]]))
print(___["___"].___())
Modifica ed esegui il codice