Buscar archivos
No te satisface la limpieza de tu conjunto de datos de tuits. Todavía hay cadenas que no aportan ningún sentimiento. Entre ellas están las cadenas que hacen referencia a nombres de archivos de texto.
También encuentras una forma de detectarlas:
- Aparecen al principio de la cadena.
- Siempre empiezan con una secuencia de 2 o 3 vocales (a, e, i, o, u) mayúsculas o minúsculas.
- Siempre acaban con
txt
.
No sabes si debes eliminarlas directamente. Así que escribes un script para buscarlas y almacenarlas en un conjunto de datos diferente.
Debes anotar algunos metacaracteres como ayuda: ^
anclar al principio, .
cualquier carácter.
La variable sentiment_analysis
, que contiene el texto de dos tuits, y el módulo re
, ya se han cargado en tu sesión. Puedes utilizar para visualizarlo en el shell IPython.
Este ejercicio forma parte del curso
Expresiones regulares en Python
Instrucciones del ejercicio
- Escribe una regex que busque el patrón de los nombres de los archivos de texto (por ejemplo,
aemyfile.txt
). - Busca todas las instancias de la regex en los elementos de
sentiment_analysis
. Imprime el resultado. - Sustituye todas las instancias de la regex por una cadena vacía
""
. Imprime el resultado.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Write a regex to match text file name
regex = ____"____[____]{____}____txt"
for text in sentiment_analysis:
# Find all matches of the regex
print(re.____(____, ____))
# Replace all matches with empty string
print(re.____(____, ____, ____))