Entendendo a diferença
Você precisa continuar trabalhando e limpando seu conjunto de dados de tuítes. Você percebe que há algumas tags HTML presentes. Você precisa removê-las, mas manter o conteúdo interno, pois elas são úteis para análise.
Vamos dar uma olhada nesta frase que contém uma tag HTML:
I want to see that <strong>amazing show</strong> again!
.
Você sabe que, para obter a tag HTML, é necessário corresponder qualquer coisa que esteja dentro de colchetes angulares <
>
. Mas o maior problema é que a tag de fechamento tem a mesma estrutura. Se você corresponder demais, acabará removendo informações importantes. Portanto, você precisa decidir se vai usar um quantificador ganancioso ou preguiçoso.
A string já está carregada como string
em sua sessão.
Este exercício faz parte do curso
Expressões regulares em Python
Instruções do exercício
- Importe o módulo
re
. - Escreva uma expressão
regex
para substituir as tags HTML por uma string vazia. - Imprima o resultado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import re
____
# Write a regex to eliminate tags
string_notags = re.____(r"____", "____", ____)
# Print out the result
____