CommencerCommencer gratuitement

Regex avec NLTK tokenization

Twitter est une source fréquemment utilisée pour NLP texte et tâches. Dans cet exercice, vous allez construire un tokenizer plus complexe pour les tweets avec des hashtags et des mentions à l'aide de nltk et de regex. La classe nltk.tokenize.TweetTokenizer vous offre quelques méthodes et attributs supplémentaires pour analyser les tweets.

Ici, on vous donne quelques exemples de tweets à analyser en utilisant à la fois TweetTokenizer et regexp_tokenize du module nltk.tokenize. Ces exemples de tweets ont été préchargés dans la variable tweets. N'hésitez pas à l'explorer dans le shell IPython !

Contrairement à la syntaxe de la bibliothèque regex, avec nltk_tokenize() vous transmettez le motif en tant que deuxième argument.

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import the necessary modules
____
____
Modifier et exécuter le code