Text mit PyPDF extrahieren
Mit PyPDF können wir Text aus PDFs extrahieren, was die Arbeit mit mehrseitigen Dokumenten wie z. B. Policy-Dateien erleichtert.
In dieser Übung lädst du US_Employee_Policy.pdf
, extrahierst den Inhalt Seite für Seite und kombinierst ihn zu einem einzigen String, um den Text für eine Frage-Antwort-Pipeline vorzubereiten.
Diese Übung ist Teil des Kurses
Arbeiten mit Hugging Face
Anleitung zur Übung
- Importiere die benötigte Klasse von
pypdf
und lade damit die Datei PDF. - Rufe jede Seite auf und extrahiere ihren Inhalt mit der richtigen Methode.
Interaktive Übung zum Anfassen
Probieren Sie diese Übung aus, indem Sie diesen Beispielcode ausführen.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)