Extraindo texto com PyPDF
O PyPDF permite extrair texto de PDFs, facilitando o trabalho com documentos de várias páginas, como arquivos de políticas.
Neste exercício, você vai carregar o US_Employee_Policy.pdf
, extrair o conteúdo página por página e juntar tudo em uma única string, preparando o texto para um pipeline de perguntas e respostas.
Este exercício faz parte do curso
Trabalhando com o Hugging Face
Instruções do exercício
- Importa a classe necessária de
pypdf
e usa-a para carregar o arquivo PDF. - Acesse cada página e extraia o conteúdo usando o método certo.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)