Menggabungkan level
Jika bekerja dengan kemencengan yang kuat pada exclaim_mess terasa sulit, jumlah gambar yang dilampirkan pada setiap email (image) menjadi tantangan yang lebih besar. Jalankan kode berikut di konsol untuk melihat sebarannya:
table(email$image)
Ingat bahwa ini membuat tabulasi jumlah kasus di setiap kategori (misalnya ada 3811 email dengan 0 gambar). Mengingat jumlah yang sangat rendah pada kategori dengan angka gambar yang lebih tinggi, mari gabungkan image menjadi variabel kategorikal yang menunjukkan apakah email memiliki setidaknya satu gambar atau tidak. Pada latihan ini, Anda akan membuat variabel baru tersebut dan mengeksplorasi keterkaitannya dengan spam.
Latihan ini merupakan bagian dari kursus
Analisis Data Eksploratori dengan R
Instruksi latihan
Mulai dari email, bentuk rangkaian berantai (pipeline) yang menghubungkan tugas-tugas berikut:
- Buat variabel baru bernama
has_imageyang bernilaiTRUEjika jumlah gambar lebih dari nol danFALSEjika tidak. - Buat plot yang sesuai dengan
emailuntuk memvisualisasikan hubungan antarahas_imagedanspam.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)