ComenzarEmpieza gratis

Conseguir tokens

El siguiente paso es tokenizar el texto de tus tuits. La tokenización es el proceso de dividir una cadena en unidades léxicas (palabras). Sin embargo, primero tienes que eliminar los hashtags para que no enturbien tu proceso. Te das cuenta de que los hashtags empiezan con un símbolo # y contienen letras y números, pero nunca espacios en blanco. Después, planeas dividir el texto en las instancias de espacios en blanco para obtener los tokens.

Usa tu lista de cuantificadores como ayuda: * cero o más veces, + una vez o más, ? cero veces o una vez, {n, m} mínimo n, máximo m.

La variable sentiment_analysis, que contiene el texto de un tuit, y el módulo re ya se han cargado en tu sesión. Puedes utilizar para visualizarlo en el shell IPython.

Este ejercicio forma parte del curso

Expresiones regulares en Python

Ver curso

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Write a regex matching the hashtag pattern
regex = r"____"
Editar y ejecutar código