LoslegenKostenlos loslegen

Text mit PyPDF extrahieren

Mit PyPDF können wir Text aus PDFs rausholen, was die Arbeit mit mehrseitigen Dokumenten wie Richtliniendateien echt einfach macht.

In dieser Übung lädst du die Datei „ US_Employee_Policy.pdf “, packst den Inhalt Seite für Seite aus und fügst alles zu einer einzigen Zeichenfolge zusammen, um den Text für eine Frage-Antwort-Pipeline vorzubereiten.

Diese Übung ist Teil des Kurses

Arbeiten mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Importier die benötigte Klasse aus „ pypdf “ und lade damit die PDF-Datei.
  • Ruf jede Seite auf und hol den Inhalt mit der richtigen Methode raus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Code bearbeiten und ausführen