Regex con la tokenizzazione NLTK
Twitter è una fonte spesso usata per testi e attività di NLP. In questo esercizio, costruirai un tokenizer più complesso per i tweet con hashtag e menzioni usando nltk e le regex. La classe nltk.tokenize.TweetTokenizer ti offre metodi e attributi extra per analizzare i tweet.
Qui ti vengono forniti alcuni tweet di esempio da analizzare sia con TweetTokenizer sia con regexp_tokenize dal modulo nltk.tokenize. Questi tweet di esempio sono già stati caricati nella variabile tweets. Sentiti libero di esplorarla nell’IPython Shell!
A differenza della sintassi della libreria regex, con nltk_tokenize() passi il pattern come secondo argomento.
Questo esercizio fa parte del corso
Introduzione al Natural Language Processing in Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import the necessary modules
____
____