Aan de slagGa gratis aan de slag

Profielen identificeren

We werken nog steeds aan een verkenning van onze gegevensset met tweets. Deze elementen staan in een geneste lijst van 5055 sublijsten, die we verkennen met purrr.

In deze oefening beantwoorden we een vraag over het gedrag van gebruikers: hoeveel gebruikers hebben alleen geretweet, zonder ooit "originele content" te plaatsen? Een vuistregel op Twitter is dat ongeveer 80% van de mensen alleen retweet, terwijl 20% content publiceert, volgens de wet van Pareto. Dat gaan we in deze oefening controleren.

Daarvoor moeten we onze gegevensset in tweeën splitsen en vervolgens tellen hoeveel gebruikers er in totaal zijn, en hoeveel gebruikers alleen in de groep "alleen retweeten" zitten.

purrr is voor je geladen en de lijst rstudioconf is nog steeds beschikbaar in je werkruimte.

Deze oefening maakt deel uit van de cursus

Gevorderd functioneel programmeren met purrr

Cursus bekijken

Oefeninstructies

  • Maak een sublijst van retweets, extraheer het element user_id en verwijder de duplicaten met unique()

  • Maak een sublijst van originele tweets, extraheer het element user_id en verwijder de duplicaten met unique().

  • Combineer union() (uit base R) en length() om het totaal aantal gebruikers te bepalen.

  • Gebruik de functie setdiff() (uit base R) om de gebruikers te krijgen die alleen in de retweet-sublijst staan.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Keep the RT, extract the user_id, remove the duplicate
rt <- ___(___, "is_retweet") %>%
  ___("user_id") %>% 
  ___()

# Remove the RT, extract the user id, remove the duplicate
non_rt <- ___(rstudioconf, "is_retweet") %>%
  ___("user_id") %>% 
  ___()

# Determine the total number of users
___(rt, non_rt) %>% ___()

# Determine the number of users who has just retweeted
___(rt, non_rt) %>% ___()
Code bewerken en uitvoeren