MulaiMulai sekarang secara gratis

Spam dan num_char

Apakah ada keterkaitan antara spam dan panjang sebuah email? Anda bisa membayangkan argumen ke dua arah:

  • Spam cenderung berupa pesan singkat yang menggoda saya untuk mengeklik tautan, atau
  • Email normal saya cenderung lebih pendek karena saya sering bertukar email singkat dengan teman-teman.

Di sini, Anda akan menggunakan himpunan data email untuk menjawab pertanyaan tersebut. Mulailah dengan membuka berkas bantuan dan pelajari semua variabel menggunakan ?email.

Saat Anda mengeksplorasi keterkaitan antara spam dan panjang email, gunakan kesempatan ini untuk mencoba mengaitkan rangkaian dplyr dengan lapisan-lapisan dalam objek ggplot2.

Latihan ini adalah bagian dari kursus

Analisis Data Eksploratori dengan R

Lihat Kursus

Petunjuk latihan

Menggunakan himpunan data email

  • Muat paket ggplot2, dplyr, dan openintro.
  • Hitung ukuran pemusatan dan penyebaran yang sesuai dari num_char untuk spam dan non-spam menggunakan group_by() dan summarize(). Tidak perlu memberi nama kolom baru yang dibuat oleh summarize().
  • Bangun boxplot berdampingan untuk memvisualisasikan keterkaitan antara dua variabel yang sama. Akan berguna untuk melakukan mutate() kolom baru yang berisi versi num_char yang ditransformasi log.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Load packages




# Compute summary statistics
email %>%
  ___ %>%
  ___

# Create plot
email %>%
  mutate(log_num_char = ___) %>%
  ggplot(aes(x = ___, y = log_num_char)) +
  ___
Edit dan Jalankan Kode