Conseguir tokens

El siguiente paso es tokenizar el texto de tus tuits. La tokenización es el proceso de dividir una cadena en unidades léxicas (palabras). Sin embargo, primero tienes que eliminar los hashtags para que no enturbien tu proceso. Te das cuenta de que los hashtags empiezan con un símbolo # y contienen letras y números, pero nunca espacios en blanco. Después, planeas dividir el texto en las instancias de espacios en blanco para obtener los tokens.

Usa tu lista de cuantificadores como ayuda: * cero o más veces, + una vez o más, ? cero veces o una vez, {n, m} mínimo n, máximo m.

La variable sentiment_analysis, que contiene el texto de un tuit, y el módulo re ya se han cargado en tu sesión. Puedes utilizar para visualizarlo en el shell IPython.

Este ejercicio forma parte del curso

Expresiones regulares en Python

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Write a regex matching the hashtag pattern
regex = r"____"

Editar y ejecutar código

Este ejercicio forma parte del curso

Expresiones regulares en Python

PrincipianteNivel de habilidad

4.8+

Empieza el curso gratis

Comienza tu viaje por el mundo de las expresiones regulares. Desde trocear cadenas y concatenarlas, ajustar mayúsculas y minúsculas y eliminar espacios hasta buscar y reemplazar cadenas. Dominarás la manipulación de cadenas utilizando un conjunto de datos de críticas de películas.

Exercise 1: Introducción a la manipulación de cadenas Exercise 2: ¡Primer día!Exercise 3: Críticas artificiales Exercise 4: Palíndromos Exercise 5: Operaciones con cadenas Exercise 6: Normalizar las críticas Exercise 7: ¡Es hora de unirse!Exercise 8: ¿Dividir líneas o dividir la línea?Exercise 9: Buscar y reemplazar Exercise 10: Buscar una subcadena Exercise 11: ¿Dónde está la palabra?Exercise 12: Sustituir negaciones

Siguiendo tu recorrido, aprenderás los principales enfoques que se pueden utilizar para aplicar formato a cadenas o interpolarlas en Python utilizando un conjunto de datos con información de Internet. Explorarás las ventajas e inconvenientes de utilizar el formato posicional, integrar expresiones en constantes de cadena y utilizar la clase Plantilla.

Exercise 1: Formato posicional Exercise 2: ¡Ponlo en orden!Exercise 3: Llamar a las cosas por su nombre Exercise 4: ¿Qué día es hoy?Exercise 5: Literal de cadena con formato Exercise 6: Formato literal Exercise 7: Haz que funcione Exercise 8: A tiempo Exercise 9: Método de la plantilla Exercise 10: Preparar un informe Exercise 11: Identificar los precios Exercise 12: Jugar sobre seguro

Es hora de descubrir los conceptos fundamentales de las expresiones regulares. En este capítulo clave, comprenderás los conceptos básicos de la sintaxis de las expresiones regulares. Utilizando un conjunto de datos real con tuits destinados al análisis de sentimiento, aprenderás a buscar patrones utilizando caracteres normales y especiales y cuantificadores greedy y lazy.

Exercise 1: Introducción a las expresiones regulares Exercise 2: ¿Son bots?Exercise 3: Encuentra los números Exercise 4: Buscar y dividir Exercise 5: Repeticiones Exercise 6: Todo limpio Exercise 7: Hace algún tiempo Exercise 8: Conseguir tokens

Ejercicio actual

Exercise 9: Metacaracteres de regex Exercise 10: Buscar archivos Exercise 11: Dame tu email Exercise 12: Contraseña no válida Exercise 13: Búsqueda greedy y no greedy Exercise 14: Comprender la diferencia Exercise 15: Búsqueda greedy Exercise 16: Enfoque lazy

En el último paso de tu viaje, aprenderás métodos más complejos de búsqueda de patrones que utilizan paréntesis para agrupar cadenas o para buscar el mismo texto buscado anteriormente. Además, te harás una idea de cómo puedes revisar delante las expresiones.

Exercise 1: Grupos de captura Exercise 2: Prueba con otro nombre Exercise 3: Volando a casa Exercise 4: Alternancia y grupos de no captura Exercise 5: Me encanta Exercise 6: ¡Puf! No es para mí Exercise 7: Referencias hacia atrás Exercise 8: Análisis de archivos PDF Exercise 9: ¡Cierra la etiqueta, por favor!Exercise 10: Caracteres reeepetidos Exercise 11: Lookaround Exercise 12: Palabras circundantes Exercise 13: Filtrar números de teléfono Exercise 14: Meta