ComenzarEmpieza gratis

Comprender la diferencia

Tienes que seguir trabajando y limpiando tu conjunto de datos de tuits. Te das cuenta de que hay algunas etiquetas HTML. Debes eliminarlas, pero conservar lo que está escrito entre ellas, ya que es útil para el análisis.

Veamos esta frase, que contiene una etiqueta HTML:

I want to see that <strong>amazing show</strong> again!.

Sabes que, para obtener la etiqueta HTML, tienes que buscar todo lo que esté escrito entre corchetes angulares < >. Sin embargo, el mayor problema es que la etiqueta de cierre tiene la misma estructura. Si buscas demasiado, acabarás eliminando información clave. Así que tienes que decidir si utilizas un cuantificador greedy o lazy.

La cadena ya se ha cargado como string en tu sesión.

Este ejercicio forma parte del curso

Expresiones regulares en Python

Ver curso

Instrucciones de ejercicio

  • Importa el módulo re.
  • Escribe una expresión regex para sustituir las etiquetasHTML por una cadena vacía.
  • Imprime el resultado.

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Import re
____

# Write a regex to eliminate tags
string_notags = re.____(r"____", "____", ____)

# Print out the result
____
Editar y ejecutar código