MulaiMulai sekarang secara gratis

Identifikasi profil

Kita masih melanjutkan eksplorasi himpunan data tweet kita. Elemen-elemen ini berada dalam sebuah daftar bertingkat yang berisi 5055 sublist, yang sedang kita telusuri dengan purrr.

Dalam latihan ini, kita akan menjawab pertanyaan tentang perilaku pengguna: berapa banyak pengguna yang hanya me-retweet, tanpa pernah menerbitkan "konten asli"? Aturan praktis umum di Twitter adalah sekitar 80% orang hanya me-retweet, sementara 20% menerbitkan konten, mengikuti hukum Pareto. Kita akan memverifikasi hal ini dalam latihan ini.

Untuk melakukannya, kita perlu membagi himpunan data menjadi dua, lalu menghitung berapa banyak total pengguna, dan berapa banyak pengguna yang hanya ada di grup "hanya retweet".

purrr telah dimuat untuk Anda, dan daftar rstudioconf masih tersedia di ruang kerja Anda.

Latihan ini adalah bagian dari kursus

Pemrograman Fungsional Tingkat Menengah dengan purrr

Lihat Kursus

Petunjuk latihan

  • Buat sublist retweet, ekstrak elemen user_id, dan hapus duplikat dengan unique()

  • Buat sublist tweet asli, ekstrak elemen user_id, dan hapus duplikat dengan unique().

  • Gabungkan union() (dari base R) dan length() untuk mengetahui jumlah total pengguna.

  • Gunakan fungsi setdiff() (dari base R) untuk memperoleh pengguna yang hanya ada di sublist retweet.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Keep the RT, extract the user_id, remove the duplicate
rt <- ___(___, "is_retweet") %>%
  ___("user_id") %>% 
  ___()

# Remove the RT, extract the user id, remove the duplicate
non_rt <- ___(rstudioconf, "is_retweet") %>%
  ___("user_id") %>% 
  ___()

# Determine the total number of users
___(rt, non_rt) %>% ___()

# Determine the number of users who has just retweeted
___(rt, non_rt) %>% ___()
Edit dan Jalankan Kode