Regex avec la tokenization NLTK
Twitter est une source fréquemment utilisée pour les textes et tâches en NLP. Dans cet exercice, vous allez créer un tokenizer plus avancé pour des tweets contenant des hashtags et des mentions à l’aide de nltk et des regex. La classe nltk.tokenize.TweetTokenizer vous offre des méthodes et attributs supplémentaires pour analyser des tweets.
Ici, on vous fournit des tweets d’exemple à analyser avec TweetTokenizer et regexp_tokenize du module nltk.tokenize. Ces tweets d’exemple ont été préchargés dans la variable tweets. N’hésitez pas à l’explorer dans l’IPython Shell !
Contrairement à la syntaxe de la bibliothèque regex, avec nltk_tokenize() vous passez le motif en second argument.
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the necessary modules
____
____