Spam dan !!!
Mari kita lihat indikator spam yang lebih jelas: tanda seru. exclaim_mess berisi jumlah tanda seru dalam setiap pesan. Gunakan statistik ringkasan dan visualisasi untuk melihat apakah ada hubungan antara variabel ini dan apakah suatu pesan merupakan spam atau bukan.
Cobalah berbagai jenis plot hingga Anda menemukan yang paling informatif. Ingat bahwa Anda telah melihat:
- Box plot berdampingan
- Histogram berfasil
- Plot kerapatan bertumpuk
Latihan ini adalah bagian dari kursus
Analisis Data Eksploratori dengan R
Petunjuk latihan
Himpunan data email masih tersedia di workspace Anda.
- Hitung ukuran pemusatan dan sebaran yang sesuai dari
exclaim_messuntuk spam dan bukan-spam menggunakangroup_by()dansummarize(). - Buat plot yang sesuai untuk memvisualisasikan keterkaitan antara kedua variabel yang sama, dengan menambahkan langkah transformasi log jika diperlukan.
- Jika Anda memutuskan menggunakan transformasi log, ingat bahwa
log(0)adalah-Infdi R, yang tidak terlalu berguna! Anda dapat mengatasinya dengan menambahkan bilangan kecil (seperti0.01) pada kuantitas di dalam fungsilog(). Dengan demikian, nilainya tidak pernah nol. Pergeseran kecil ke kanan ini tidak akan memengaruhi hasil Anda.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Compute center and spread for exclaim_mess by spam
# Create plot for spam and exclaim_mess