Text mit PyPDF extrahieren
Mit PyPDF können wir Text aus PDFs rausholen, was die Arbeit mit mehrseitigen Dokumenten wie Richtliniendateien echt einfach macht.
In dieser Übung lädst du die Datei „ US_Employee_Policy.pdf “, packst den Inhalt Seite für Seite aus und fügst alles zu einer einzigen Zeichenfolge zusammen, um den Text für eine Frage-Antwort-Pipeline vorzubereiten.
Diese Übung ist Teil des Kurses
Arbeiten mit Hugging Face
Anleitung zur Übung
- Importier die benötigte Klasse aus „
pypdf“ und lade damit die PDF-Datei. - Ruf jede Seite auf und hol den Inhalt mit der richtigen Methode raus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)