MulaiMulai sekarang secara gratis

Spam dan !!!

Mari kita lihat indikator spam yang lebih jelas: tanda seru. exclaim_mess berisi jumlah tanda seru dalam setiap pesan. Gunakan statistik ringkasan dan visualisasi untuk melihat apakah ada hubungan antara variabel ini dan apakah suatu pesan merupakan spam atau bukan.

Cobalah berbagai jenis plot hingga Anda menemukan yang paling informatif. Ingat bahwa Anda telah melihat:

  • Box plot berdampingan
  • Histogram berfasil
  • Plot kerapatan bertumpuk

Latihan ini adalah bagian dari kursus

Analisis Data Eksploratori dengan R

Lihat Kursus

Petunjuk latihan

Himpunan data email masih tersedia di workspace Anda.

  • Hitung ukuran pemusatan dan sebaran yang sesuai dari exclaim_mess untuk spam dan bukan-spam menggunakan group_by() dan summarize().
  • Buat plot yang sesuai untuk memvisualisasikan keterkaitan antara kedua variabel yang sama, dengan menambahkan langkah transformasi log jika diperlukan.
  • Jika Anda memutuskan menggunakan transformasi log, ingat bahwa log(0) adalah -Inf di R, yang tidak terlalu berguna! Anda dapat mengatasinya dengan menambahkan bilangan kecil (seperti 0.01) pada kuantitas di dalam fungsi log(). Dengan demikian, nilainya tidak pernah nol. Pergeseran kecil ke kanan ini tidak akan memengaruhi hasil Anda.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Compute center and spread for exclaim_mess by spam




# Create plot for spam and exclaim_mess

Edit dan Jalankan Kode