Buscar archivos

No te satisface la limpieza de tu conjunto de datos de tuits. Todavía hay cadenas que no aportan ningún sentimiento. Entre ellas están las cadenas que hacen referencia a nombres de archivos de texto.

También encuentras una forma de detectarlas:

Aparecen al principio de la cadena.
Siempre empiezan con una secuencia de 2 o 3 vocales (a, e, i, o, u) mayúsculas o minúsculas.
Siempre acaban con txt.

No sabes si debes eliminarlas directamente. Así que escribes un script para buscarlas y almacenarlas en un conjunto de datos diferente.

Debes anotar algunos metacaracteres como ayuda: ^ anclar al principio, . cualquier carácter.

La variable sentiment_analysis, que contiene el texto de dos tuits, y el módulo re, ya se han cargado en tu sesión. Puedes utilizar para visualizarlo en el shell IPython.

Este ejercicio forma parte del curso

Expresiones regulares en Python

Instrucciones del ejercicio

Escribe una regex que busque el patrón de los nombres de los archivos de texto (por ejemplo, aemyfile.txt).
Busca todas las instancias de la regex en los elementos de sentiment_analysis. Imprime el resultado.
Sustituye todas las instancias de la regex por una cadena vacía "". Imprime el resultado.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Write a regex to match text file name
regex = ____"____[____]{____}____txt"

for text in sentiment_analysis:
	# Find all matches of the regex
	print(re.____(____, ____))
    
	# Replace all matches with empty string
	print(re.____(____, ____, ____))

Editar y ejecutar código

Este ejercicio forma parte del curso

Expresiones regulares en Python

PrincipianteNivel de habilidad

4.8+

Empieza el curso gratis

Comienza tu viaje por el mundo de las expresiones regulares. Desde trocear cadenas y concatenarlas, ajustar mayúsculas y minúsculas y eliminar espacios hasta buscar y reemplazar cadenas. Dominarás la manipulación de cadenas utilizando un conjunto de datos de críticas de películas.

Exercise 1: Introducción a la manipulación de cadenas Exercise 2: ¡Primer día!Exercise 3: Críticas artificiales Exercise 4: Palíndromos Exercise 5: Operaciones con cadenas Exercise 6: Normalizar las críticas Exercise 7: ¡Es hora de unirse!Exercise 8: ¿Dividir líneas o dividir la línea?Exercise 9: Buscar y reemplazar Exercise 10: Buscar una subcadena Exercise 11: ¿Dónde está la palabra?Exercise 12: Sustituir negaciones

Siguiendo tu recorrido, aprenderás los principales enfoques que se pueden utilizar para aplicar formato a cadenas o interpolarlas en Python utilizando un conjunto de datos con información de Internet. Explorarás las ventajas e inconvenientes de utilizar el formato posicional, integrar expresiones en constantes de cadena y utilizar la clase Plantilla.

Exercise 1: Formato posicional Exercise 2: ¡Ponlo en orden!Exercise 3: Llamar a las cosas por su nombre Exercise 4: ¿Qué día es hoy?Exercise 5: Literal de cadena con formato Exercise 6: Formato literal Exercise 7: Haz que funcione Exercise 8: A tiempo Exercise 9: Método de la plantilla Exercise 10: Preparar un informe Exercise 11: Identificar los precios Exercise 12: Jugar sobre seguro

Es hora de descubrir los conceptos fundamentales de las expresiones regulares. En este capítulo clave, comprenderás los conceptos básicos de la sintaxis de las expresiones regulares. Utilizando un conjunto de datos real con tuits destinados al análisis de sentimiento, aprenderás a buscar patrones utilizando caracteres normales y especiales y cuantificadores greedy y lazy.

Exercise 1: Introducción a las expresiones regulares Exercise 2: ¿Son bots?Exercise 3: Encuentra los números Exercise 4: Buscar y dividir Exercise 5: Repeticiones Exercise 6: Todo limpio Exercise 7: Hace algún tiempo Exercise 8: Conseguir tokens Exercise 9: Metacaracteres de regex Exercise 10: Buscar archivos

Ejercicio actual

Exercise 11: Dame tu email Exercise 12: Contraseña no válida Exercise 13: Búsqueda greedy y no greedy Exercise 14: Comprender la diferencia Exercise 15: Búsqueda greedy Exercise 16: Enfoque lazy

En el último paso de tu viaje, aprenderás métodos más complejos de búsqueda de patrones que utilizan paréntesis para agrupar cadenas o para buscar el mismo texto buscado anteriormente. Además, te harás una idea de cómo puedes revisar delante las expresiones.

Exercise 1: Grupos de captura Exercise 2: Prueba con otro nombre Exercise 3: Volando a casa Exercise 4: Alternancia y grupos de no captura Exercise 5: Me encanta Exercise 6: ¡Puf! No es para mí Exercise 7: Referencias hacia atrás Exercise 8: Análisis de archivos PDF Exercise 9: ¡Cierra la etiqueta, por favor!Exercise 10: Caracteres reeepetidos Exercise 11: Lookaround Exercise 12: Palabras circundantes Exercise 13: Filtrar números de teléfono Exercise 14: Meta