Analisando arquivos PDF
Agora você precisa trabalhar em outro pequeno projeto que vem adiando. Sua empresa deu a você alguns arquivos PDF de contratos assinados. O objetivo do projeto é criar um banco de dados com as informações que você analisar a partir deles. Três dessas colunas devem corresponder ao dia, mês e ano em que o contrato foi assinado.
As datas aparecem como Signed on 05/24/2016
(05
indica o mês, 24
o dia). Você decide usar grupos de captura para extrair essas informações. Além disso, você gostaria de recuperar essas informações para poder armazená-las separadamente em diferentes variáveis.
Você decide fazer uma prova de conceito.
A variável contract
que contém o texto de um contrato e o módulo re
já estão carregados em sua sessão. Você pode usar print()
para visualizar os dados no Shell IPython.
Este exercício faz parte do curso
Expressões regulares em Python
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Write regex and scan contract to capture the dates described
regex_dates = r"____\s____\s(____)/(____)/(____)"
dates = re.____(____, ____)