Comprender la diferencia
Tienes que seguir trabajando y limpiando tu conjunto de datos de tuits. Te das cuenta de que hay algunas etiquetas HTML. Debes eliminarlas, pero conservar lo que está escrito entre ellas, ya que es útil para el análisis.
Veamos esta frase, que contiene una etiqueta HTML:
I want to see that <strong>amazing show</strong> again!
.
Sabes que, para obtener la etiqueta HTML, tienes que buscar todo lo que esté escrito entre corchetes angulares <
>
. Sin embargo, el mayor problema es que la etiqueta de cierre tiene la misma estructura. Si buscas demasiado, acabarás eliminando información clave. Así que tienes que decidir si utilizas un cuantificador greedy o lazy.
La cadena ya se ha cargado como string
en tu sesión.
Este ejercicio forma parte del curso
Expresiones regulares en Python
Instrucciones de ejercicio
- Importa el módulo
re
. - Escribe una expresión
regex
para sustituir las etiquetasHTML por una cadena vacía. - Imprime el resultado.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Import re
____
# Write a regex to eliminate tags
string_notags = re.____(r"____", "____", ____)
# Print out the result
____