Regex com tokenização NLTK
O Twitter é uma fonte frequentemente usada para NLP textos e tarefas. Neste exercício, você criará um tokenizador mais complexo para tweets com hashtags e menções usando nltk
e regex. A classe nltk.tokenize.TweetTokenizer
oferece a você alguns métodos e atributos adicionais para analisar tweets.
Aqui, você recebe alguns exemplos de tweets para analisar usando TweetTokenizer
e regexp_tokenize
do módulo nltk.tokenize
. Esses exemplos de tweets foram pré-carregados na variável tweets
. Fique à vontade para explorá-lo no IPython Shell!
Diferentemente da sintaxe da biblioteca regex, com nltk_tokenize()
você passa o padrão como o segundo argumento.
Este exercício faz parte do curso
Introdução ao processamento de linguagem natural em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import the necessary modules
____
____