Individuare gli outlier
Considera la distribuzione, mostrata qui, delle aspettative di vita dei paesi in Asia. Il box plot identifica un chiaro outlier: un paese con un'aspettativa di vita insolitamente bassa. Hai un'ipotesi su quale paese potrebbe essere? Metti alla prova la tua ipotesi nella console usando min() o filter(), poi procedi a costruire un grafico con quel paese rimosso.
Questo esercizio fa parte del corso
Analisi esplorativa dei dati in R
Istruzioni dell'esercizio
gap2007 è ancora disponibile nel tuo workspace.
- Applica un filtro in modo che contenga solo le osservazioni dell'Asia, poi crea una nuova variabile chiamata
is_outlierche siaTRUEper i paesi con aspettativa di vita inferiore a 50. Assegna il risultato agap_asia. - Filtra
gap_asiaper rimuovere tutti gli outlier, quindi crea un altro box plot delle aspettative di vita rimanenti.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Filter for Asia, add column indicating outliers
gap_asia <- ___ %>%
filter(___) %>%
mutate(___ = ___)
# Remove outliers, create box plot of lifeExp
gap_asia %>%
filter(___) %>%
ggplot(aes(x = ___, y = ___)) +
___