URL's analyseren
We werken nog steeds aan onze verkenning van de #RStudioConf-gegevensset. In deze oefening focussen we op de URL's in de tweets.
De URL's staan in een element met de naam "url_urls". Deze "url_urls"-elementen bevatten ofwel NULL als er geen URL in de tweet stond, of een lijst met één of meer URL's.
We beginnen met het extraheren van alle "url_urls"-elementen uit de gegevensset en combineren daarna purrr en stringr om te tellen hoeveel tweets een link naar een GitHub-gerelateerde URL bevatten. Omdat GitHub een populair platform is voor developers, duidt een hoge aanwezigheid van deze website op een sterke community van developers in onze gegevensset.
purrr en stringr zijn voor je geladen en de rstudioconf-gegevensset is nog beschikbaar in je werkruimte.
Deze oefening maakt deel uit van de cursus
Gevorderd functioneel programmeren met purrr
Oefeninstructies
Extraheer alle
"urls_url"-elementen en geef het resultaat door aanflatten()om een hiërarchieniveau te verwijderen.Verwijder de
NULLuit de resultaten.Maak een mapper genaamd
has_githubdie detecteert of een tekenreeks"github"bevat.Gebruik de
map_*()-variant voor logisch methas_githuben geef dit door aansum()om het aantal links met"github"te tellen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Extract the "urls_url" elements, and flatten() the result
urls_clean <- ___(rstudioconf, ___) %>%
___()
# Remove the NULL
compact_urls <- ___(___)
# Create a mapper that detects the patten "github"
has_github <- ___(~ str_detect(.x, "github"))
# Look for the "github" pattern, and sum the result
___( compact_urls, has_github ) %>%
___()