Caracteres reeepetidos

Vuelve a tu análisis de sentimiento. Tu siguiente tarea es sustituir las palabras alargadas que aparecen en los tuits. Una palabra alargada es una palabra que contiene un carácter repetido dos o más veces (p. ej., "Awesoooome").

Sustituir esas palabras es muy importante, ya que los clasificadores las tratarán como términos diferentes de las palabras origen, lo que reducirá su frecuencia.

Para buscarlas, utilizarás grupos de captura y harás referencia a ellas hacia atrás usando números. Por ejemplo, \4.

Si quieres buscar una instancia de Awesoooome, primero tienes que capturar Awes. A continuación, busca o y haz referencia al mismo carácter hacia atrás y, a continuación, a me.

La lista sentiment_analysis, que contiene el texto de tres tuits, y el módulo re ya se han cargado en tu sesión. Puedes utilizar para ver los datos en el shell IPython.

Este ejercicio forma parte del curso

Expresiones regulares en Python

Instrucciones del ejercicio

Completa la expresión regular para buscar una palabra alargada según se describe.
Busca los elementos de la lista sentiment_analysis para averiguar si contienen palabras alargadas. Asigna el resultado a match_elongated.
Asigna el número de grupo capturado cero a la variable elongated_word.
Imprime el resultado contenido en la variable elongated_word.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Complete the regex to match an elongated word
regex_elongated = r"____(____)____\w*"

for tweet in sentiment_analysis:
	# Find if there is a match in each tweet 
	match_elongated = re.____(____, ____)
    
	if match_elongated:
		# Assign the captured group zero 
		elongated_word = match_elongated.____(____)
        
		# Complete the format method to print the word
		print("Elongated word found: {____}".format(word=____))
	else:
		print("No elongated word found")

Editar y ejecutar código

Este ejercicio forma parte del curso

Expresiones regulares en Python

PrincipianteNivel de habilidad

4.8+

Empieza el curso gratis

Comienza tu viaje por el mundo de las expresiones regulares. Desde trocear cadenas y concatenarlas, ajustar mayúsculas y minúsculas y eliminar espacios hasta buscar y reemplazar cadenas. Dominarás la manipulación de cadenas utilizando un conjunto de datos de críticas de películas.

Exercise 1: Introducción a la manipulación de cadenas Exercise 2: ¡Primer día!Exercise 3: Críticas artificiales Exercise 4: Palíndromos Exercise 5: Operaciones con cadenas Exercise 6: Normalizar las críticas Exercise 7: ¡Es hora de unirse!Exercise 8: ¿Dividir líneas o dividir la línea?Exercise 9: Buscar y reemplazar Exercise 10: Buscar una subcadena Exercise 11: ¿Dónde está la palabra?Exercise 12: Sustituir negaciones

Siguiendo tu recorrido, aprenderás los principales enfoques que se pueden utilizar para aplicar formato a cadenas o interpolarlas en Python utilizando un conjunto de datos con información de Internet. Explorarás las ventajas e inconvenientes de utilizar el formato posicional, integrar expresiones en constantes de cadena y utilizar la clase Plantilla.

Exercise 1: Formato posicional Exercise 2: ¡Ponlo en orden!Exercise 3: Llamar a las cosas por su nombre Exercise 4: ¿Qué día es hoy?Exercise 5: Literal de cadena con formato Exercise 6: Formato literal Exercise 7: Haz que funcione Exercise 8: A tiempo Exercise 9: Método de la plantilla Exercise 10: Preparar un informe Exercise 11: Identificar los precios Exercise 12: Jugar sobre seguro

Es hora de descubrir los conceptos fundamentales de las expresiones regulares. En este capítulo clave, comprenderás los conceptos básicos de la sintaxis de las expresiones regulares. Utilizando un conjunto de datos real con tuits destinados al análisis de sentimiento, aprenderás a buscar patrones utilizando caracteres normales y especiales y cuantificadores greedy y lazy.

Exercise 1: Introducción a las expresiones regulares Exercise 2: ¿Son bots?Exercise 3: Encuentra los números Exercise 4: Buscar y dividir Exercise 5: Repeticiones Exercise 6: Todo limpio Exercise 7: Hace algún tiempo Exercise 8: Conseguir tokens Exercise 9: Metacaracteres de regex Exercise 10: Buscar archivos Exercise 11: Dame tu email Exercise 12: Contraseña no válida Exercise 13: Búsqueda greedy y no greedy Exercise 14: Comprender la diferencia Exercise 15: Búsqueda greedy Exercise 16: Enfoque lazy

En el último paso de tu viaje, aprenderás métodos más complejos de búsqueda de patrones que utilizan paréntesis para agrupar cadenas o para buscar el mismo texto buscado anteriormente. Además, te harás una idea de cómo puedes revisar delante las expresiones.

Exercise 1: Grupos de captura Exercise 2: Prueba con otro nombre Exercise 3: Volando a casa Exercise 4: Alternancia y grupos de no captura Exercise 5: Me encanta Exercise 6: ¡Puf! No es para mí Exercise 7: Referencias hacia atrás Exercise 8: Análisis de archivos PDF Exercise 9: ¡Cierra la etiqueta, por favor!Exercise 10: Caracteres reeepetidos

Ejercicio actual

Exercise 11: Lookaround Exercise 12: Palabras circundantes Exercise 13: Filtrar números de teléfono Exercise 14: Meta