Choix d'un tokenizer
Étant donné la chaîne de caractères suivante, lequel des modèles ci-dessous est le meilleur tokenizer ? Dans la mesure du possible, vous souhaitez conserver la ponctuation des phrases en tant que jetons distincts, mais faire en sorte que '#1' reste un jeton unique.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
La chaîne est disponible dans votre espace de travail sous le nom de my_string, et les motifs ont été préchargés sous les noms de pattern1, pattern2, pattern3, et pattern4, respectivement.
En outre, regexp_tokenize a été importé de nltk.tokenize. Vous pouvez utiliser regexp_tokenize(string, pattern) avec my_string et l'un des motifs comme arguments pour expérimenter par vous-même et voir quel est le meilleur tokenizer.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice