Regex con la tokenizzazione NLTK

Twitter è una fonte spesso usata per testi e attività di NLP. In questo esercizio, costruirai un tokenizer più complesso per i tweet con hashtag e menzioni usando nltk e le regex. La classe nltk.tokenize.TweetTokenizer ti offre metodi e attributi extra per analizzare i tweet.

Qui ti vengono forniti alcuni tweet di esempio da analizzare sia con TweetTokenizer sia con regexp_tokenize dal modulo nltk.tokenize. Questi tweet di esempio sono già stati caricati nella variabile tweets. Sentiti libero di esplorarla nell’IPython Shell!

A differenza della sintassi della libreria regex, con nltk_tokenize() passi il pattern come secondo argomento.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Import the necessary modules
____
____

Modifica ed esegui il codice