Choix d'un tokenizer
Étant donné la chaîne de caractères suivante, lequel des modèles ci-dessous est le meilleur tokenizer ? Dans la mesure du possible, vous souhaitez conserver la ponctuation des phrases en tant que jetons distincts, mais faire en sorte que '#1'
reste un jeton unique.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
La chaîne est disponible dans votre espace de travail sous le nom de my_string
, et les motifs ont été préchargés sous les noms de pattern1
, pattern2
, pattern3
, et pattern4
, respectivement.
En outre, regexp_tokenize
a été importé de nltk.tokenize
. Vous pouvez utiliser regexp_tokenize(string, pattern)
avec my_string
et l'un des motifs comme arguments pour expérimenter par vous-même et voir quel est le meilleur tokenizer.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
