Menggabungkan level
Jika bekerja dengan kemencengan yang kuat pada exclaim_mess terasa sulit, jumlah gambar yang dilampirkan pada setiap email (image) menjadi tantangan yang lebih besar. Jalankan kode berikut di konsol untuk melihat sebarannya:
table(email$image)
Ingat bahwa ini membuat tabulasi jumlah kasus di setiap kategori (misalnya ada 3811 email dengan 0 gambar). Mengingat jumlah yang sangat rendah pada kategori dengan angka gambar yang lebih tinggi, mari gabungkan image menjadi variabel kategorikal yang menunjukkan apakah email memiliki setidaknya satu gambar atau tidak. Pada latihan ini, Anda akan membuat variabel baru tersebut dan mengeksplorasi keterkaitannya dengan spam.
Latihan ini adalah bagian dari kursus
Analisis Data Eksploratori dengan R
Petunjuk latihan
Mulai dari email, bentuk rangkaian berantai (pipeline) yang menghubungkan tugas-tugas berikut:
- Buat variabel baru bernama
has_imageyang bernilaiTRUEjika jumlah gambar lebih dari nol danFALSEjika tidak. - Buat plot yang sesuai dengan
emailuntuk memvisualisasikan hubungan antarahas_imagedanspam.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Create plot of proportion of spam by image
email %>%
mutate(has_image = ___) %>%
ggplot(aes(x = ___, fill = ___)) +
geom_bar(position = ___)