ComeçarComece gratuitamente

Corresponder e dividir

Alguns dos tuítes do seu conjunto de dados foram baixados incorretamente. Em vez de ter espaços para separar as palavras, eles têm caracteres estranhos. Você decide usar expressões regulares para lidar com essa situação. Você imprime alguns desses tuítes para entender qual padrão precisa corresponder.

Você percebe que as frases são sempre separadas por um caractere especial, seguido de um número, a palavra break e, depois disso, outro caractere especial, por exemplo &4break!. As palavras são sempre separadas por um caractere especial, a palavra new e um caractere aleatório normal, por exemplo #newH.

A variável sentiment_analysis, que contém o texto de um tuíte, bem como o módulo re, já foram carregados em sua sessão. Você pode usar print(sentiment_analysis) para visualizá-lo no Shell IPython.

Este exercício faz parte do curso

Expressões regulares em Python

Ver Curso

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Write a regex to match pattern separating sentences
regex_sentence = ____"____"
Editar e executar código