Choix d'un tokenizer

Étant donné la chaîne de caractères suivante, lequel des modèles ci-dessous est le meilleur tokenizer ? Dans la mesure du possible, vous souhaitez conserver la ponctuation des phrases en tant que jetons distincts, mais faire en sorte que '#1' reste un jeton unique.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

La chaîne est disponible dans votre espace de travail sous le nom de my_string, et les motifs ont été préchargés sous les noms de pattern1, pattern2, pattern3, et pattern4, respectivement.

En outre, regexp_tokenize a été importé de nltk.tokenize. Vous pouvez utiliser regexp_tokenize(string, pattern) avec my_string et l'un des motifs comme arguments pour expérimenter par vous-même et voir quel est le meilleur tokenizer.

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice