Nettoyer des chaînes de caractères
Dans cette leçon, vous avez découvert les bases des « regex », ou expressions régulières, qui permettent de capturer des motifs généraux. Nous avons vu deux notations :
| Expression | Rôle |
|---|---|
. |
correspond à n’importe quel caractère |
* |
zéro occurrence ou plus |
Par exemple, ".*science " correspondrait à "data science " dans la chaîne "data science rocks!"
Mettons cela en pratique pour modifier la variable response_var dans le jeu de données que vous avez créé à la leçon précédente, gathered_data.
Cet exercice fait partie du cours
Données catégorielles dans le Tidyverse
Instructions
- Utilisez
str_removepour supprimer tout ce qui précède, y compris "rude to " (avec l’espace à la fin), dans la colonneresponse_var. - Utilisez
str_removepour supprimer "on a plane" de la colonneresponse_var.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
gathered_data %>%
# Remove everything before and including "rude to " (with that space at the end!)
mutate(response_var = ___(response_var, ___)) %>%
# Remove "on a plane"
mutate(response_var = ___(response_var, ___))