IniziaInizia gratis

Identificare i profili

Stiamo ancora esplorando il nostro insieme di dati di tweet. Questi elementi sono contenuti in una lista annidata di 5055 sottoliste, che stiamo esplorando con purrr.

In questo esercizio risponderemo a una domanda sul comportamento degli utenti: quanti utenti hanno solo retwittato, senza mai pubblicare alcun "contenuto originale"? Una regola empirica su Twitter è che circa l’80% delle persone fa solo retweet, mentre il 20% pubblica contenuti, in linea con la legge di Pareto. Verificheremo questa ipotesi nell’esercizio.

Per farlo, dobbiamo dividere il dataset in due e poi contare quanti utenti ci sono in totale e quanti sono solo nel gruppo "solo retweet".

purrr è già stato caricato per te e la lista rstudioconf è ancora disponibile nel tuo workspace.

Questo esercizio fa parte del corso

Programmazione funzionale intermedia con purrr

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una sottolista di retweet, estrai l’elemento user_id e rimuovi i duplicati con unique().

  • Crea una sottolista di tweet originali, estrai l’elemento user_id e rimuovi i duplicati con unique().

  • Combina union() (di base R) e length() per ottenere il numero totale di utenti.

  • Usa la funzione setdiff() (di base R) per ottenere gli utenti che compaiono solo nella sottolista dei retweet.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Keep the RT, extract the user_id, remove the duplicate
rt <- ___(___, "is_retweet") %>%
  ___("user_id") %>% 
  ___()

# Remove the RT, extract the user id, remove the duplicate
non_rt <- ___(rstudioconf, "is_retweet") %>%
  ___("user_id") %>% 
  ___()

# Determine the total number of users
___(rt, non_rt) %>% ___()

# Determine the number of users who has just retweeted
___(rt, non_rt) %>% ___()
Modifica ed esegui il codice