Regex avec NLTK tokenization
Twitter est une source fréquemment utilisée pour NLP texte et tâches. Dans cet exercice, vous allez construire un tokenizer plus complexe pour les tweets avec des hashtags et des mentions à l'aide de nltk
et de regex. La classe nltk.tokenize.TweetTokenizer
vous offre quelques méthodes et attributs supplémentaires pour analyser les tweets.
Ici, on vous donne quelques exemples de tweets à analyser en utilisant à la fois TweetTokenizer
et regexp_tokenize
du module nltk.tokenize
. Ces exemples de tweets ont été préchargés dans la variable tweets
. N'hésitez pas à l'explorer dans le shell IPython !
Contrairement à la syntaxe de la bibliothèque regex, avec nltk_tokenize()
vous transmettez le motif en tant que deuxième argument.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the necessary modules
____
____