Estrazione di testo con PyPDF
PyPDF permette di estrarre testo dai PDF, rendendo semplice lavorare con documenti multi-pagina come le policy aziendali.
In questo esercizio caricherai US_Employee_Policy.pdf, ne estrarrai il contenuto pagina per pagina e lo unirai in un'unica stringa, preparando il testo per una pipeline di question answering.
Questo esercizio fa parte del corso
Lavorare con Hugging Face
Istruzioni dell'esercizio
- Importa la classe necessaria da
pypdfe usala per caricare il file PDF. - Accedi a ciascuna pagina ed estrai il contenuto usando il metodo corretto.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)