Het "of-patroon" gebruiken met een grotere dataset
Nu je het principe begrijpt van het samenvoegen van meerdere mogelijkheden uit een vector, ga je een stap verder en pas je dit toe op een grotere dataset. In de globale scope zijn twee variabelen beschikbaar: articles en politicians. De eerste is een verzameling nieuwsartikelen over de Zwitserse politiek. De tweede is een lijst met namen van Zwitserse politici die in de artikelen voorkomen.
Jouw taak is nu om uit te zoeken welke namen in welke artikelen voorkomen en hoe vaak elke politicus in alle artikelen genoemd wordt.
Deze oefening maakt deel uit van de cursus
Gevorderde reguliere expressies in R
Oefeninstructies
- Gebruik de vector
politiciansom een reguliere expressie te maken die matcht op alle namen die in die vector zijn opgeslagen. - Maak een nieuwe kolom in de data frame
articlesmet alle politici-namen die voorkomen in de kolomtext. - Plak alle artikelen aan elkaar zodat je het aantal voorkomens per politicus makkelijker kunt tellen.
- Gebruik de vector
politiciansals patroon en geef die door aanstr_count().
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Construct a pattern that searches for all politicians
polit_pattern <- glue_collapse(___, sep = "___")
# Use the pattern to match all names in the column "text"
articles %<>%
mutate(mentions = str_match_all(___, ___))
# Collapse all items of the column "text"
all_articles_in_one <- ___(articles$text)
# Pass the vector politicians to count all its elements
str_count(all_articles_in_one, ___)