CommencerCommencer gratuitement

Choisir un tokenizer

Étant donnée la chaîne suivante, lequel des motifs ci-dessous est le meilleur tokenizer ? Si possible, vous souhaitez conserver la ponctuation des phrases comme des jetons séparés, mais faire en sorte que '#1' reste un seul jeton.

my_string = "SOLDIER #1: Found them? In Mercea? The coconut's tropical!"

La chaîne est disponible dans votre espace de travail sous le nom my_string, et les motifs ont été préchargés sous les noms pattern1, pattern2, pattern3 et pattern4 respectivement.

De plus, regexp_tokenize a été importée depuis nltk.tokenize. Vous pouvez utiliser regexp_tokenize(string, pattern) avec my_string et l’un des motifs comme arguments pour faire vos propres essais et déterminer lequel est le meilleur tokenizer.

Cet exercice fait partie du cours

Introduction au Natural Language Processing (NLP) en Python

Afficher le cours

Exercice interactif pratique

Passez de la théorie à la pratique avec l’un de nos exercices interactifs

Commencer l’exercice