MulaiMulai sekarang secara gratis

Menggabungkan level

Jika bekerja dengan kemencengan yang kuat pada exclaim_mess terasa sulit, jumlah gambar yang dilampirkan pada setiap email (image) menjadi tantangan yang lebih besar. Jalankan kode berikut di konsol untuk melihat sebarannya:

table(email$image)

Ingat bahwa ini membuat tabulasi jumlah kasus di setiap kategori (misalnya ada 3811 email dengan 0 gambar). Mengingat jumlah yang sangat rendah pada kategori dengan angka gambar yang lebih tinggi, mari gabungkan image menjadi variabel kategorikal yang menunjukkan apakah email memiliki setidaknya satu gambar atau tidak. Pada latihan ini, Anda akan membuat variabel baru tersebut dan mengeksplorasi keterkaitannya dengan spam.

Latihan ini adalah bagian dari kursus

Analisis Data Eksploratori dengan R

Lihat Kursus

Petunjuk latihan

Mulai dari email, bentuk rangkaian berantai (pipeline) yang menghubungkan tugas-tugas berikut:

  • Buat variabel baru bernama has_image yang bernilai TRUE jika jumlah gambar lebih dari nol dan FALSE jika tidak.
  • Buat plot yang sesuai dengan email untuk memvisualisasikan hubungan antara has_image dan spam.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Create plot of proportion of spam by image
email %>%
  mutate(has_image = ___) %>%
  ggplot(aes(x = ___, fill = ___)) +
  geom_bar(position = ___)
Edit dan Jalankan Kode