Identificare i profili
Stiamo ancora esplorando il nostro insieme di dati di tweet. Questi elementi sono contenuti in una lista annidata di 5055 sottoliste, che stiamo esplorando con purrr.
In questo esercizio risponderemo a una domanda sul comportamento degli utenti: quanti utenti hanno solo retwittato, senza mai pubblicare alcun "contenuto originale"? Una regola empirica su Twitter è che circa l’80% delle persone fa solo retweet, mentre il 20% pubblica contenuti, in linea con la legge di Pareto. Verificheremo questa ipotesi nell’esercizio.
Per farlo, dobbiamo dividere il dataset in due e poi contare quanti utenti ci sono in totale e quanti sono solo nel gruppo "solo retweet".
purrr è già stato caricato per te e la lista rstudioconf è ancora disponibile nel tuo workspace.
Questo esercizio fa parte del corso
Programmazione funzionale intermedia con purrr
Istruzioni dell'esercizio
Crea una sottolista di retweet, estrai l’elemento
user_ide rimuovi i duplicati conunique().Crea una sottolista di tweet originali, estrai l’elemento
user_ide rimuovi i duplicati conunique().Combina
union()(di base R) elength()per ottenere il numero totale di utenti.Usa la funzione
setdiff()(di base R) per ottenere gli utenti che compaiono solo nella sottolista dei retweet.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Keep the RT, extract the user_id, remove the duplicate
rt <- ___(___, "is_retweet") %>%
___("user_id") %>%
___()
# Remove the RT, extract the user id, remove the duplicate
non_rt <- ___(rstudioconf, "is_retweet") %>%
___("user_id") %>%
___()
# Determine the total number of users
___(rt, non_rt) %>% ___()
# Determine the number of users who has just retweeted
___(rt, non_rt) %>% ___()