IniziaInizia gratis

Estrazione di testo con PyPDF

PyPDF permette di estrarre testo dai PDF, rendendo semplice lavorare con documenti multi-pagina come le policy aziendali.

In questo esercizio caricherai US_Employee_Policy.pdf, ne estrarrai il contenuto pagina per pagina e lo unirai in un'unica stringa, preparando il testo per una pipeline di question answering.

Questo esercizio fa parte del corso

Lavorare con Hugging Face

Visualizza il corso

Istruzioni dell'esercizio

  • Importa la classe necessaria da pypdf e usala per caricare il file PDF.
  • Accedi a ciascuna pagina ed estrai il contenuto usando il metodo corretto.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Modifica ed esegui il codice