ComeçarComece de graça

Extraindo texto com PyPDF

O PyPDF permite extrair texto de PDFs, facilitando o trabalho com documentos de várias páginas, como arquivos de políticas.

Neste exercício, você vai carregar o US_Employee_Policy.pdf, extrair o conteúdo página por página e juntar tudo em uma única string, preparando o texto para um pipeline de perguntas e respostas.

Este exercício faz parte do curso

Trabalhando com o Hugging Face

Ver curso

Instruções do exercício

  • Importa a classe necessária de pypdf e usa-a para carregar o arquivo PDF.
  • Acesse cada página e extraia o conteúdo usando o método certo.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Editar e executar o código