Identifikasi profil
Kita masih melanjutkan eksplorasi himpunan data tweet kita. Elemen-elemen ini berada dalam sebuah daftar bertingkat yang berisi 5055 sublist, yang sedang kita telusuri dengan purrr.
Dalam latihan ini, kita akan menjawab pertanyaan tentang perilaku pengguna: berapa banyak pengguna yang hanya me-retweet, tanpa pernah menerbitkan "konten asli"? Aturan praktis umum di Twitter adalah sekitar 80% orang hanya me-retweet, sementara 20% menerbitkan konten, mengikuti hukum Pareto. Kita akan memverifikasi hal ini dalam latihan ini.
Untuk melakukannya, kita perlu membagi himpunan data menjadi dua, lalu menghitung berapa banyak total pengguna, dan berapa banyak pengguna yang hanya ada di grup "hanya retweet".
purrr telah dimuat untuk Anda, dan daftar rstudioconf masih tersedia di ruang kerja Anda.
Latihan ini adalah bagian dari kursus
Pemrograman Fungsional Tingkat Menengah dengan purrr
Petunjuk latihan
Buat sublist retweet, ekstrak elemen
user_id, dan hapus duplikat denganunique()Buat sublist tweet asli, ekstrak elemen
user_id, dan hapus duplikat denganunique().Gabungkan
union()(dari base R) danlength()untuk mengetahui jumlah total pengguna.Gunakan fungsi
setdiff()(dari base R) untuk memperoleh pengguna yang hanya ada di sublist retweet.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Keep the RT, extract the user_id, remove the duplicate
rt <- ___(___, "is_retweet") %>%
___("user_id") %>%
___()
# Remove the RT, extract the user id, remove the duplicate
non_rt <- ___(rstudioconf, "is_retweet") %>%
___("user_id") %>%
___()
# Determine the total number of users
___(rt, non_rt) %>% ___()
# Determine the number of users who has just retweeted
___(rt, non_rt) %>% ___()