ComenzarEmpieza gratis

Caracteres reeepetidos

Vuelve a tu análisis de sentimiento. Tu siguiente tarea es sustituir las palabras alargadas que aparecen en los tuits. Una palabra alargada es una palabra que contiene un carácter repetido dos o más veces (p. ej., "Awesoooome").

Sustituir esas palabras es muy importante, ya que los clasificadores las tratarán como términos diferentes de las palabras origen, lo que reducirá su frecuencia.

Para buscarlas, utilizarás grupos de captura y harás referencia a ellas hacia atrás usando números. Por ejemplo, \4.

Si quieres buscar una instancia de Awesoooome, primero tienes que capturar Awes. A continuación, busca o y haz referencia al mismo carácter hacia atrás y, a continuación, a me.

La lista sentiment_analysis, que contiene el texto de tres tuits, y el módulo re ya se han cargado en tu sesión. Puedes utilizar para ver los datos en el shell IPython.

Este ejercicio forma parte del curso

Expresiones regulares en Python

Ver curso

Instrucciones de ejercicio

  • Completa la expresión regular para buscar una palabra alargada según se describe.
  • Busca los elementos de la lista sentiment_analysis para averiguar si contienen palabras alargadas. Asigna el resultado a match_elongated.
  • Asigna el número de grupo capturado cero a la variable elongated_word.
  • Imprime el resultado contenido en la variable elongated_word.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Complete the regex to match an elongated word
regex_elongated = r"____(____)____\w*"

for tweet in sentiment_analysis:
	# Find if there is a match in each tweet 
	match_elongated = re.____(____, ____)
    
	if match_elongated:
		# Assign the captured group zero 
		elongated_word = match_elongated.____(____)
        
		# Complete the format method to print the word
		print("Elongated word found: {____}".format(word=____))
	else:
		print("No elongated word found") 
Editar y ejecutar código