CommencerCommencez gratuitement

Choisir un tokenizer

Étant donnée la chaîne suivante, lequel des motifs ci-dessous est le meilleur tokenizer ? Si possible, vous souhaitez conserver la ponctuation des phrases comme des jetons séparés, mais faire en sorte que '#1' reste un seul jeton.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

La chaîne est disponible dans votre espace de travail sous le nom my_string, et les motifs ont été préchargés sous les noms pattern1, pattern2, pattern3 et pattern4 respectivement.

De plus, regexp_tokenize a été importée depuis nltk.tokenize. Vous pouvez utiliser regexp_tokenize(string, pattern) avec my_string et l’un des motifs comme arguments pour faire vos propres essais et déterminer lequel est le meilleur tokenizer.

Cet exercice fait partie du cours

<cours>Introduction au Natural Language Processing (NLP) en Python</cours>
Voir le cours

Exercice interactif pratique

Transformez la théorie en action avec l’un de nos exercices interactifs

Commencer l’exercice