MulaiMulai sekarang secara gratis

Menjawab pertanyaan dengan rantai

Ketika Anda memiliki pertanyaan spesifik tentang suatu himpunan data, Anda dapat menemukan jawabannya dengan menyusun rantai kode R yang sesuai secara cermat. Misalnya, pertimbangkan pertanyaan berikut: "Dalam email non-spam, apakah panjang email yang umum lebih pendek untuk email yang dikirim ke banyak orang?"

Ini dapat dijawab dengan rantai berikut:

email %>%
   filter(spam == "not-spam") %>%
   group_by(to_multiple) %>%
   summarize(median(num_char))

Kode tersebut memperjelas bahwa Anda menggunakan num_char untuk mengukur panjang sebuah email dan median() sebagai ukuran nilai yang umum. Jika Anda menjalankan kode ini, Anda akan mengetahui bahwa jawabannya adalah "ya": panjang email non-spam yang dikirim ke banyak orang sedikit lebih rendah dibandingkan yang dikirim hanya ke satu orang.

Rantai ini diakhiri dengan statistik ringkasan, tetapi yang lain bisa berakhir dengan sebuah plot; semuanya bergantung pada pertanyaan yang ingin Anda jawab.

Latihan ini adalah bagian dari kursus

Analisis Data Eksploratori dengan R

Lihat Kursus

Petunjuk latihan

Bangun sebuah rantai untuk menjawab masing-masing pertanyaan berikut, keduanya tentang variabel dollar.

  • Untuk email yang berisi kata "dollar", apakah email spam yang umum memiliki jumlah kemunculan kata tersebut lebih banyak daripada email non-spam yang umum? Buat statistik ringkasan yang menjawab pertanyaan ini.
  • Jika Anda menemukan sebuah email dengan lebih dari 10 kemunculan kata dollar, apakah lebih mungkin itu spam atau not-spam? Buat bagan batang yang menjawab pertanyaan ini.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Question 1
email %>%
  filter(___) %>%
  group_by(___) %>%
  summarize(___)

# Question 2
email %>%
  filter(___) %>%
  ggplot(aes(x = ___)) +
  geom_bar()
Edit dan Jalankan Kode