Text mit PyPDF extrahieren
Mit PyPDF kannst du Text aus PDFs extrahieren und mühelos mit mehrseitigen Dokumenten wie Richtliniendateien arbeiten.
In dieser Übung lädst du die US_Employee_Policy.pdf, extrahierst den Inhalt seitenweise und fügst ihn zu einem einzigen String zusammen, um den Text für eine Question-Answering-Pipeline vorzubereiten.
Diese Übung ist Teil des Kurses
Arbeiten mit Hugging Face
Anleitung zur Übung
- Importiere die benötigte Klasse aus
pypdfund verwende sie, um die PDF-Datei zu laden. - Greife auf jede Seite zu und extrahiere ihren Inhalt mit der richtigen Methode.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)