ComeçarComece de graça

Localização de arquivos

Você não está satisfeito com a limpeza do conjunto de dados de tuítes. Ainda há strings extras que não fornecem nenhum sentimento. Entre elas estão as strings que se referem a nomes de arquivos de texto.

Você também encontra uma maneira de detectá-los:

  • Eles aparecem no início da string.
  • Eles sempre começam com uma sequência de 2 ou 3 vogais maiúsculas ou minúsculas (a e i o u).
  • Eles sempre terminam com o final txt.

Você não tem certeza se deve removê-los diretamente. Então, você escreve um script para encontrá-los e armazená-los em um conjunto de dados separado.

Você anota alguns metacaracteres para ajudá-lo: ^ âncora para o início, . qualquer caractere.

A variável sentiment_analysis, que contém o texto de dois tuítes, bem como o módulo re, já estão carregados em sua sessão. Você pode usar para visualizá-lo no Shell IPython.

Este exercício faz parte do curso

Expressões regulares em Python

Ver curso

Instruções do exercício

  • Escreva uma regex que corresponda ao padrão dos nomes dos arquivos de texto, por exemplo, aemyfile.txt.
  • Encontre todas as correspondências da regex nos elementos de sentiment_analysis. Imprima o resultado.
  • Substitua todas as correspondências da regex por uma string vazia "". Imprima o resultado.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Write a regex to match text file name
regex = ____"____[____]{____}____txt"

for text in sentiment_analysis:
	# Find all matches of the regex
	print(re.____(____, ____))
    
	# Replace all matches with empty string
	print(re.____(____, ____, ____))
Editar e executar o código