Spam dan num_char
Apakah ada keterkaitan antara spam dan panjang sebuah email? Anda bisa membayangkan argumen ke dua arah:
- Spam cenderung berupa pesan singkat yang menggoda saya untuk mengeklik tautan, atau
- Email normal saya cenderung lebih pendek karena saya sering bertukar email singkat dengan teman-teman.
Di sini, Anda akan menggunakan himpunan data email untuk menjawab pertanyaan tersebut. Mulailah dengan membuka berkas bantuan dan pelajari semua variabel menggunakan ?email.
Saat Anda mengeksplorasi keterkaitan antara spam dan panjang email, gunakan kesempatan ini untuk mencoba mengaitkan rangkaian dplyr dengan lapisan-lapisan dalam objek ggplot2.
Latihan ini adalah bagian dari kursus
Analisis Data Eksploratori dengan R
Petunjuk latihan
Menggunakan himpunan data email
- Muat paket
ggplot2,dplyr, danopenintro. - Hitung ukuran pemusatan dan penyebaran yang sesuai dari
num_charuntuk spam dan non-spam menggunakangroup_by()dansummarize(). Tidak perlu memberi nama kolom baru yang dibuat olehsummarize(). - Bangun boxplot berdampingan untuk memvisualisasikan keterkaitan antara dua variabel yang sama. Akan berguna untuk melakukan
mutate()kolom baru yang berisi versinum_charyang ditransformasi log.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Load packages
# Compute summary statistics
email %>%
___ %>%
___
# Create plot
email %>%
mutate(log_num_char = ___) %>%
ggplot(aes(x = ___, y = log_num_char)) +
___