Choisir un tokenizer
Étant donnée la chaîne suivante, lequel des motifs ci-dessous est le meilleur tokenizer ? Si possible, vous souhaitez conserver la ponctuation des phrases comme des jetons séparés, mais faire en sorte que '#1' reste un seul jeton.
my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"
La chaîne est disponible dans votre espace de travail sous le nom my_string, et les motifs ont été préchargés sous les noms pattern1, pattern2, pattern3 et pattern4 respectivement.
De plus, regexp_tokenize a été importée depuis nltk.tokenize. Vous pouvez utiliser regexp_tokenize(string, pattern) avec my_string et l’un des motifs comme arguments pour faire vos propres essais et déterminer lequel est le meilleur tokenizer.
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice