ComenzarEmpieza gratis

Buscar archivos

No te satisface la limpieza de tu conjunto de datos de tuits. Todavía hay cadenas que no aportan ningún sentimiento. Entre ellas están las cadenas que hacen referencia a nombres de archivos de texto.

También encuentras una forma de detectarlas:

  • Aparecen al principio de la cadena.
  • Siempre empiezan con una secuencia de 2 o 3 vocales (a, e, i, o, u) mayúsculas o minúsculas.
  • Siempre acaban con txt.

No sabes si debes eliminarlas directamente. Así que escribes un script para buscarlas y almacenarlas en un conjunto de datos diferente.

Debes anotar algunos metacaracteres como ayuda: ^ anclar al principio, . cualquier carácter.

La variable sentiment_analysis, que contiene el texto de dos tuits, y el módulo re, ya se han cargado en tu sesión. Puedes utilizar para visualizarlo en el shell IPython.

Este ejercicio forma parte del curso

Expresiones regulares en Python

Ver curso

Instrucciones del ejercicio

  • Escribe una regex que busque el patrón de los nombres de los archivos de texto (por ejemplo, aemyfile.txt).
  • Busca todas las instancias de la regex en los elementos de sentiment_analysis. Imprime el resultado.
  • Sustituye todas las instancias de la regex por una cadena vacía "". Imprime el resultado.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Write a regex to match text file name
regex = ____"____[____]{____}____txt"

for text in sentiment_analysis:
	# Find all matches of the regex
	print(re.____(____, ____))
    
	# Replace all matches with empty string
	print(re.____(____, ____, ____))
Editar y ejecutar código