Aan de slagGa gratis aan de slag

Tekst extraheren met PyPDF

Met PyPDF kun je tekst uit PDF's halen, zodat je eenvoudig met documenten met meerdere pagina's kunt werken, zoals beleidsteksten.

In deze oefening laad je US_Employee_Policy.pdf, extraheer je de inhoud pagina voor pagina en voeg je alles samen tot één string, zodat de tekst klaar is voor een question-answering-pipeline.

Deze oefening maakt deel uit van de cursus

Werken met Hugging Face

Cursus bekijken

Oefeninstructies

  • Importeer de benodigde klasse uit pypdf en gebruik die om het PDF-bestand te laden.
  • Benader elke pagina en extraheer de inhoud met de juiste methode.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Code bewerken en uitvoeren