Tekst extraheren met PyPDF
Met PyPDF kun je tekst uit PDF's halen, zodat je eenvoudig met documenten met meerdere pagina's kunt werken, zoals beleidsteksten.
In deze oefening laad je US_Employee_Policy.pdf, extraheer je de inhoud pagina voor pagina en voeg je alles samen tot één string, zodat de tekst klaar is voor een question-answering-pipeline.
Deze oefening maakt deel uit van de cursus
Werken met Hugging Face
Oefeninstructies
- Importeer de benodigde klasse uit
pypdfen gebruik die om het PDF-bestand te laden. - Benader elke pagina en extraheer de inhoud met de juiste methode.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)