Extração de texto com o PyPDF
O PyPDF nos permite extrair texto de PDFs, facilitando o trabalho com documentos de várias páginas, como arquivos de políticas.
Neste exercício, você carregará o site US_Employee_Policy.pdf
, extrairá seu conteúdo página por página e o combinará em uma única cadeia de caracteres, preparando o texto para um pipeline de perguntas e respostas.
Este exercício faz parte do curso
Trabalhando com o Hugging Face
Instruções do exercício
- Importe a classe necessária de
pypdf
e use-a para carregar o arquivo PDF. - Acesse cada página e extraia seu conteúdo usando o método correto.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)