LoslegenKostenlos loslegen

Text mit PyPDF extrahieren

Mit PyPDF kannst du Text aus PDFs extrahieren und mühelos mit mehrseitigen Dokumenten wie Richtliniendateien arbeiten.

In dieser Übung lädst du die US_Employee_Policy.pdf, extrahierst den Inhalt seitenweise und fügst ihn zu einem einzigen String zusammen, um den Text für eine Question-Answering-Pipeline vorzubereiten.

Diese Übung ist Teil des Kurses

Arbeiten mit Hugging Face

Kurs anzeigen

Anleitung zur Übung

  • Importiere die benötigte Klasse aus pypdf und verwende sie, um die PDF-Datei zu laden.
  • Greife auf jede Seite zu und extrahiere ihren Inhalt mit der richtigen Methode.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Code bearbeiten und ausführen