Localização de arquivos
Você não está satisfeito com a limpeza do conjunto de dados de tuítes. Ainda há strings extras que não fornecem nenhum sentimento. Entre elas estão as strings que se referem a nomes de arquivos de texto.
Você também encontra uma maneira de detectá-los:
- Eles aparecem no início da string.
- Eles sempre começam com uma sequência de 2 ou 3 vogais maiúsculas ou minúsculas (a e i o u).
- Eles sempre terminam com o final
txt
.
Você não tem certeza se deve removê-los diretamente. Então, você escreve um script para encontrá-los e armazená-los em um conjunto de dados separado.
Você anota alguns metacaracteres para ajudá-lo: ^
âncora para o início, .
qualquer caractere.
A variável sentiment_analysis
, que contém o texto de dois tuítes, bem como o módulo re
, já estão carregados em sua sessão. Você pode usar para visualizá-lo no Shell IPython.
Este exercício faz parte do curso
Expressões regulares em Python
Instruções do exercício
- Escreva uma regex que corresponda ao padrão dos nomes dos arquivos de texto, por exemplo,
aemyfile.txt
. - Encontre todas as correspondências da regex nos elementos de
sentiment_analysis
. Imprima o resultado. - Substitua todas as correspondências da regex por uma string vazia
""
. Imprima o resultado.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Write a regex to match text file name
regex = ____"____[____]{____}____txt"
for text in sentiment_analysis:
# Find all matches of the regex
print(re.____(____, ____))
# Replace all matches with empty string
print(re.____(____, ____, ____))