Faire correspondre tous les groupes capturants
Dans cet exercice, vous allez travailler avec un fichier texte nommé top_10 qui contient des titres de films et leur rang. Dans ce texte multiligne, \\n est utilisé pour passer à la ligne suivante. Vous utiliserez la fonction str_split() pour scinder le fichier texte en plusieurs lignes.
La matrice top_10_lines créée, à une seule ligne, contient alors dix lignes suivant le même motif : le rang du film, suivi d’un point, d’un espace, puis du titre du film. La fonction str_match() et deux groupes capturants () vous permettront d’extraire ces deux informations du texte brut vers une forme tabulaire.
Cet exercice fait partie du cours
Expressions régulières intermédiaires en R
Instructions
- Utilisez la fonction
str_split()pour scinder le texte en lignes et produire une matrice de caractères en activantsimplify. - Familiarisez-vous avec la structure d’une ligne. Elle contient le rang et le titre d’un film.
- Extrayez le rang et le titre d’un film en utilisant des groupes capturants dans la fonction
str_match().
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Split the input by line break and enable simplify
top_10_lines <- str_split(
top_10,
pattern = "___",
simplify = ___
)
# Inspect the first three lines and analyze their form
___[1:3]
# Add to the pattern two capturing groups that match rank and title
str_match(
top_10_lines,
pattern = "___\\. ___"
)