Caracteres reeepetidos
Vuelve a tu análisis de sentimiento. Tu siguiente tarea es sustituir las palabras alargadas que aparecen en los tuits. Una palabra alargada es una palabra que contiene un carácter repetido dos o más veces (p. ej., "Awesoooome").
Sustituir esas palabras es muy importante, ya que los clasificadores las tratarán como términos diferentes de las palabras origen, lo que reducirá su frecuencia.
Para buscarlas, utilizarás grupos de captura y harás referencia a ellas hacia atrás usando números. Por ejemplo, \4
.
Si quieres buscar una instancia de Awesoooome
, primero tienes que capturar Awes
. A continuación, busca o
y haz referencia al mismo carácter hacia atrás y, a continuación, a me
.
La lista sentiment_analysis
, que contiene el texto de tres tuits, y el módulo re
ya se han cargado en tu sesión. Puedes utilizar para ver los datos en el shell IPython.
Este ejercicio forma parte del curso
Expresiones regulares en Python
Instrucciones de ejercicio
- Completa la expresión regular para buscar una palabra alargada según se describe.
- Busca los elementos de la lista
sentiment_analysis
para averiguar si contienen palabras alargadas. Asigna el resultado amatch_elongated
. - Asigna el número de grupo capturado cero a la variable
elongated_word
. - Imprime el resultado contenido en la variable
elongated_word
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Complete the regex to match an elongated word
regex_elongated = r"____(____)____\w*"
for tweet in sentiment_analysis:
# Find if there is a match in each tweet
match_elongated = re.____(____, ____)
if match_elongated:
# Assign the captured group zero
elongated_word = match_elongated.____(____)
# Complete the format method to print the word
print("Elongated word found: {____}".format(word=____))
else:
print("No elongated word found")