Erste SchritteKostenlos loslegen

Text mit PyPDF extrahieren

Mit PyPDF können wir Text aus PDFs extrahieren, was die Arbeit mit mehrseitigen Dokumenten wie z. B. Policy-Dateien erleichtert.

In dieser Übung lädst du US_Employee_Policy.pdf, extrahierst den Inhalt Seite für Seite und kombinierst ihn zu einem einzigen String, um den Text für eine Frage-Antwort-Pipeline vorzubereiten.

Diese Übung ist Teil des Kurses

Arbeiten mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Importiere die benötigte Klasse von pypdf und lade damit die Datei PDF.
  • Rufe jede Seite auf und extrahiere ihren Inhalt mit der richtigen Methode.

Interaktive Übung zum Anfassen

Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Bearbeiten und Ausführen von Code