Identifikasi pencilan
Perhatikan distribusi harapan hidup negara-negara di Asia yang ditampilkan di sini. Box plot menandai satu pencilan yang jelas: sebuah negara dengan harapan hidup yang sangat rendah. Apakah Anda dapat menebak negara mana itu? Uji tebakan Anda di konsol menggunakan min() atau filter(), lalu lanjutkan membuat plot dengan negara tersebut dihapus.
Latihan ini adalah bagian dari kursus
Analisis Data Eksploratori dengan R
Petunjuk latihan
gap2007 masih tersedia di ruang kerja Anda.
- Terapkan filter agar hanya berisi observasi dari Asia, lalu buat variabel baru bernama
is_outlieryang bernilaiTRUEuntuk negara dengan harapan hidup kurang dari 50. Simpan hasilnya kegap_asia. - Saring
gap_asiauntuk menghapus semua pencilan, lalu buat box plot lain untuk sisa nilai harapan hidup.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Filter for Asia, add column indicating outliers
gap_asia <- ___ %>%
filter(___) %>%
mutate(___ = ___)
# Remove outliers, create box plot of lifeExp
gap_asia %>%
filter(___) %>%
ggplot(aes(x = ___, y = ___)) +
___