Regex com tokenização do NLTK
O Twitter é uma fonte muito usada para textos e tarefas de NLP. Neste exercício, você vai construir um tokenizador mais complexo para tweets com hashtags e menções usando nltk e regex. A classe nltk.tokenize.TweetTokenizer oferece métodos e atributos extras para analisar tweets.
Aqui, você recebe alguns tweets de exemplo para analisar usando tanto TweetTokenizer quanto regexp_tokenize do módulo nltk.tokenize. Esses tweets de exemplo já foram carregados na variável tweets. Sinta-se à vontade para explorá-la no IPython Shell!
Ao contrário da sintaxe da biblioteca re, com nltk_tokenize() você passa o padrão como o segundo argumento.
Este exercício faz parte do curso
Introdução ao Processamento de Linguagem Natural em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the necessary modules
____
____