S’entraîner avec les expressions régulières : re.split() et re.findall()
Vous allez maintenant écrire des expressions régulières pour faire correspondre des chiffres, des chaînes et des caractères non alphanumériques. Commencez par afficher my_string dans l’IPython Shell afin de déterminer la meilleure façon de traiter les différentes étapes.
Remarque : il est important de préfixer vos motifs regex avec r pour vous assurer qu’ils sont interprétés comme vous le souhaitez. Sinon, vous pourriez rencontrer des problèmes liés aux séquences d’échappement dans les chaînes. Par exemple, "\n" en Python indique un retour à la ligne, mais si vous utilisez le préfixe r, il sera interprété comme la chaîne brute "\n" — c’est-à-dire le caractère "\" suivi du caractère "n" — et non comme un saut de ligne.
Le module des expressions régulières re a déjà été importé pour vous.
Souvenez-vous de la vidéo : avec la bibliothèque regex, vous passez toujours le motif en premier, puis la chaîne en second.
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Instructions
- Scindez
my_stringà chaque fin de phrase. Pour cela :- Écrivez un motif appelé
sentence_endingspour faire correspondre les fins de phrase (.?!). - Utilisez
re.split()pour découpermy_stringselon ce motif et affichez le résultat.
- Écrivez un motif appelé
- Trouvez et affichez tous les mots commençant par une majuscule dans
my_stringen écrivant un motif appelécapitalized_wordset en utilisantre.findall().- Vous vous souvenez du motif
[a-z]montré dans la vidéo pour correspondre aux minuscules ? Adaptez-le pour faire correspondre les majuscules.
- Vous vous souvenez du motif
- Écrivez un motif appelé
spacespour faire correspondre un ou plusieurs espaces ("\s+"), puis utilisezre.split()pour découpermy_stringselon ce motif, en conservant toute la ponctuation. Affichez le résultat. - Trouvez tous les chiffres dans
my_stringen écrivant un motif appelédigits("\d+") et en utilisantre.findall(). Affichez le résultat.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Write a pattern to match sentence endings: sentence_endings
sentence_endings = r"[___]"
# Split my_string on sentence endings and print the result
print(re.____(____, ____))
# Find all capitalized words in my_string and print the result
capitalized_words = r"[___]\w+"
print(re.____(____, ____))
# Split my_string on spaces and print the result
spaces = r"___"
print(re.____(____, ____))
# Find all digits in my_string and print the result
digits = r"___"
print(re.____(____, ____))