IniziaInizia gratis

Regex con la tokenizzazione NLTK

Twitter è una fonte spesso usata per testi e attività di NLP. In questo esercizio, costruirai un tokenizer più complesso per i tweet con hashtag e menzioni usando nltk e le regex. La classe nltk.tokenize.TweetTokenizer ti offre metodi e attributi extra per analizzare i tweet.

Qui ti vengono forniti alcuni tweet di esempio da analizzare sia con TweetTokenizer sia con regexp_tokenize dal modulo nltk.tokenize. Questi tweet di esempio sono già stati caricati nella variabile tweets. Sentiti libero di esplorarla nell’IPython Shell!

A differenza della sintassi della libreria regex, con nltk_tokenize() passi il pattern come secondo argomento.

Questo esercizio fa parte del corso

Introduzione al Natural Language Processing in Python

Visualizza il corso

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Import the necessary modules
____
____
Modifica ed esegui il codice