ComeçarComece gratuitamente

Regex com tokenização NLTK

O Twitter é uma fonte frequentemente usada para NLP textos e tarefas. Neste exercício, você criará um tokenizador mais complexo para tweets com hashtags e menções usando nltk e regex. A classe nltk.tokenize.TweetTokenizer oferece a você alguns métodos e atributos adicionais para analisar tweets.

Aqui, você recebe alguns exemplos de tweets para analisar usando TweetTokenizer e regexp_tokenize do módulo nltk.tokenize. Esses exemplos de tweets foram pré-carregados na variável tweets. Fique à vontade para explorá-lo no IPython Shell!

Diferentemente da sintaxe da biblioteca regex, com nltk_tokenize() você passa o padrão como o segundo argumento.

Este exercício faz parte do curso

Introdução ao processamento de linguagem natural em Python

Ver Curso

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import the necessary modules
____
____
Editar e executar código