ComeçarComece de graça

Obtenção de tokens

A próxima etapa é tokenizar o texto dos seus tuítes. A tokenização é o processo de dividir uma string em unidades léxicas ou, em termos mais simples, palavras. Mas, primeiro, você precisa remover as hashtags para que elas não atrapalhem seu processo. Você percebe que as hashtags começam com um símbolo # e contêm letras e números, mas nunca espaços em branco. Depois disso, você planeja dividir o texto em correspondências de espaço em branco para obter os tokens.

Você traz sua lista de quantificadores para ajudá-lo: * zero ou mais vezes, + uma vez ou mais, ? zero ou uma vez, {n, m} mínimo n, máximo m.

A variável sentiment_analysis, que contém o texto de um tuíte, bem como o módulo re, já estão carregados em sua sessão. Você pode usar print(sentiment_analysis) para visualizá-lo no Shell IPython.

Este exercício faz parte do curso

Expressões regulares em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Write a regex matching the hashtag pattern
regex = r"____"
Editar e executar o código