Análisis de archivos PDF
Ahora tienes que trabajar en otro pequeño proyecto que has estado retrasando. Tu empresa te ha dado unos archivos PDF de contratos firmados. El objetivo del proyecto es crear una base de datos con la información que analices en ellos. Tres de estas columnas deben corresponder al día, el mes y el año de la firma del contrato.
Las fechas aparecen como Signed on 05/24/2016
(05
indica el mes; 24
, el día). Decides utilizar grupos de captura para extraer esta información. Además, te gustaría recuperar esa información para poder almacenarla por separado en distintas variables.
Decides hacer una prueba de concepto.
La variable contract
, que contiene el texto de un contrato, y el módulo re
ya se han cargado en tu sesión. Puedes utilizar para ver los datos en el shell IPython.
Este ejercicio forma parte del curso
Expresiones regulares en Python
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Write regex and scan contract to capture the dates described
regex_dates = r"____\s____\s(____)/(____)/(____)"
dates = re.____(____, ____)