Regex avec la tokenization NLTK

Twitter est une source fréquemment utilisée pour les textes et tâches en NLP. Dans cet exercice, vous allez créer un tokenizer plus avancé pour des tweets contenant des hashtags et des mentions à l’aide de nltk et des regex. La classe nltk.tokenize.TweetTokenizer vous offre des méthodes et attributs supplémentaires pour analyser des tweets.

Ici, on vous fournit des tweets d’exemple à analyser avec TweetTokenizer et regexp_tokenize du module nltk.tokenize. Ces tweets d’exemple ont été préchargés dans la variable tweets. N’hésitez pas à l’explorer dans l’IPython Shell !

Contrairement à la syntaxe de la bibliothèque regex, avec nltk_tokenize() vous passez le motif en second argument.

Cet exercice fait partie du cours

<cours>Introduction au Natural Language Processing (NLP) en Python</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the necessary modules
____
____

Modifier et exécuter le code