Utiliser le « or pattern » avec un jeu de données plus large
Maintenant que vous avez compris le principe de concaténer plusieurs possibilités à partir d’un vecteur, allez un peu plus loin et appliquez-le à un jeu de données plus volumineux. Deux variables sont disponibles dans l’espace global : articles et politicians. La première est un ensemble d’articles d’actualité sur la politique suisse. La seconde est une liste de noms d’hommes et femmes politiques suisses qui apparaissent dans ces articles.
À vous maintenant de déterminer quels noms apparaissent dans quels articles, et combien de fois chaque personnalité apparaît dans l’ensemble des articles.
Cet exercice fait partie du cours
Expressions régulières intermédiaires en R
Instructions
- Utilisez le vecteur
politicianspour créer une expression régulière qui correspond à tous les noms stockés dans ce vecteur. - Créez une nouvelle colonne dans le data frame
articlesqui contient tous les noms de personnalités politiques présents dans la colonnetext. - Fusionnez tous les articles afin de pouvoir compter plus facilement le nombre d’occurrences par personnalité.
- Utilisez le vecteur
politicianscomme motif et transmettez-le àstr_count().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Construct a pattern that searches for all politicians
polit_pattern <- glue_collapse(___, sep = "___")
# Use the pattern to match all names in the column "text"
articles %<>%
mutate(mentions = str_match_all(___, ___))
# Collapse all items of the column "text"
all_articles_in_one <- ___(articles$text)
# Pass the vector politicians to count all its elements
str_count(all_articles_in_one, ___)