Conseguir tokens
El siguiente paso es tokenizar el texto de tus tuits. La tokenización es el proceso de dividir una cadena en unidades léxicas (palabras). Sin embargo, primero tienes que eliminar los hashtags para que no enturbien tu proceso. Te das cuenta de que los hashtags empiezan con un símbolo #
y contienen letras y números, pero nunca espacios en blanco. Después, planeas dividir el texto en las instancias de espacios en blanco para obtener los tokens.
Usa tu lista de cuantificadores como ayuda: *
cero o más veces, +
una vez o más, ?
cero veces o una vez, {n, m}
mínimo n, máximo m.
La variable sentiment_analysis
, que contiene el texto de un tuit, y el módulo re
ya se han cargado en tu sesión. Puedes utilizar para visualizarlo en el shell IPython.
Este ejercicio forma parte del curso
Expresiones regulares en Python
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Write a regex matching the hashtag pattern
regex = r"____"