ComeçarComece de graça

Regex com tokenização do NLTK

O Twitter é uma fonte muito usada para textos e tarefas de NLP. Neste exercício, você vai construir um tokenizador mais complexo para tweets com hashtags e menções usando nltk e regex. A classe nltk.tokenize.TweetTokenizer oferece métodos e atributos extras para analisar tweets.

Aqui, você recebe alguns tweets de exemplo para analisar usando tanto TweetTokenizer quanto regexp_tokenize do módulo nltk.tokenize. Esses tweets de exemplo já foram carregados na variável tweets. Sinta-se à vontade para explorá-la no IPython Shell!

Ao contrário da sintaxe da biblioteca re, com nltk_tokenize() você passa o padrão como o segundo argumento.

Este exercício faz parte do curso

Introdução ao Processamento de Linguagem Natural em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the necessary modules
____
____
Editar e executar o código