Aan de slagGa gratis aan de slag

Het "of-patroon" gebruiken met een grotere dataset

Nu je het principe begrijpt van het samenvoegen van meerdere mogelijkheden uit een vector, ga je een stap verder en pas je dit toe op een grotere dataset. In de globale scope zijn twee variabelen beschikbaar: articles en politicians. De eerste is een verzameling nieuwsartikelen over de Zwitserse politiek. De tweede is een lijst met namen van Zwitserse politici die in de artikelen voorkomen.

Jouw taak is nu om uit te zoeken welke namen in welke artikelen voorkomen en hoe vaak elke politicus in alle artikelen genoemd wordt.

Deze oefening maakt deel uit van de cursus

Gevorderde reguliere expressies in R

Cursus bekijken

Oefeninstructies

  • Gebruik de vector politicians om een reguliere expressie te maken die matcht op alle namen die in die vector zijn opgeslagen.
  • Maak een nieuwe kolom in de data frame articles met alle politici-namen die voorkomen in de kolom text.
  • Plak alle artikelen aan elkaar zodat je het aantal voorkomens per politicus makkelijker kunt tellen.
  • Gebruik de vector politicians als patroon en geef die door aan str_count().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Construct a pattern that searches for all politicians
polit_pattern <- glue_collapse(___, sep = "___")

# Use the pattern to match all names in the column "text"
articles %<>%
  mutate(mentions = str_match_all(___, ___))

# Collapse all items of the column "text"
all_articles_in_one <- ___(articles$text)

# Pass the vector politicians to count all its elements
str_count(all_articles_in_one, ___)
Code bewerken en uitvoeren