Buscar y dividir
Algunos de los tuits de tu conjunto de datos se descargaron incorrectamente. En lugar de tener espacios para separar las palabras, tienen caracteres extraños. Decides utilizar expresiones regulares para manejar esta situación. Debes imprimir algunos de estos tuits para comprender qué patrón debes buscar.
Observas que las frases siempre están separadas por un carácter especial, seguido de un número, la palabra break
y, después de eso, otro carácter especial (por ejemplo, &4break!
). Las palabras siempre están separadas por un carácter especial, la palabra new
y un carácter aleatorio normal (por ejemplo, #newH
).
La variable sentiment_analysis
, que contiene el texto de un tuit, y el módulo re
ya se han cargado en tu sesión. Puedes utilizar para visualizarlo en el shell IPython.
Este ejercicio forma parte del curso
Expresiones regulares en Python
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Write a regex to match pattern separating sentences
regex_sentence = ____"____"