ComeçarComece de graça

Extração de texto com o PyPDF

O PyPDF nos permite extrair texto de PDFs, facilitando o trabalho com documentos de várias páginas, como arquivos de políticas.

Neste exercício, você carregará o site US_Employee_Policy.pdf, extrairá seu conteúdo página por página e o combinará em uma única cadeia de caracteres, preparando o texto para um pipeline de perguntas e respostas.

Este exercício faz parte do curso

Trabalhando com o Hugging Face

Ver curso

Instruções do exercício

  • Importe a classe necessária de pypdf e use-a para carregar o arquivo PDF.
  • Acesse cada página e extraia seu conteúdo usando o método correto.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Editar e executar o código