Identifikasi pencilan
Perhatikan distribusi harapan hidup negara-negara di Asia yang ditampilkan di sini. Box plot menandai satu pencilan yang jelas: sebuah negara dengan harapan hidup yang sangat rendah. Apakah Anda dapat menebak negara mana itu? Uji tebakan Anda di konsol menggunakan min() atau filter(), lalu lanjutkan membuat plot dengan negara tersebut dihapus.
Latihan ini merupakan bagian dari kursus
Analisis Data Eksploratori dengan R
Instruksi latihan
gap2007 masih tersedia di ruang kerja Anda.
- Terapkan filter agar hanya berisi observasi dari Asia, lalu buat variabel baru bernama
is_outlieryang bernilaiTRUEuntuk negara dengan harapan hidup kurang dari 50. Simpan hasilnya kegap_asia. - Saring
gap_asiauntuk menghapus semua pencilan, lalu buat box plot lain untuk sisa nilai harapan hidup.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Filter for Asia, add column indicating outliers
gap_asia <- ___ %>%
filter(___) %>%
mutate(___ = ___)
# Remove outliers, create box plot of lifeExp
gap_asia %>%
filter(___) %>%
ggplot(aes(x = ___, y = ___)) +
___