Corresponder e dividir
Alguns dos tuítes do seu conjunto de dados foram baixados incorretamente. Em vez de ter espaços para separar as palavras, eles têm caracteres estranhos. Você decide usar expressões regulares para lidar com essa situação. Você imprime alguns desses tuítes para entender qual padrão precisa corresponder.
Você percebe que as frases são sempre separadas por um caractere especial, seguido de um número, a palavra break
e, depois disso, outro caractere especial, por exemplo &4break!
. As palavras são sempre separadas por um caractere especial, a palavra new
e um caractere aleatório normal, por exemplo #newH
.
A variável sentiment_analysis
, que contém o texto de um tuíte, bem como o módulo re
, já foram carregados em sua sessão. Você pode usar print(sentiment_analysis)
para visualizá-lo no Shell IPython.
Este exercício faz parte do curso
Expressões regulares em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Write a regex to match pattern separating sentences
regex_sentence = ____"____"