Extraction de texte avec PyPDF
PyPDF permet d'extraire du texte des PDF, ce qui facilite le travail avec des documents de plusieurs pages comme les fichiers de politiques.
Dans cet exercice, vous allez charger le site US_Employee_Policy.pdf, extraire son contenu page par page et le combiner en une seule chaîne, préparant ainsi le texte pour un pipeline de questions-réponses.
Cet exercice fait partie du cours
Travailler avec Hugging Face
Instructions
- Importez la classe requise à partir de
pypdfet utilisez-la pour charger le fichier PDF. - Accédez à chaque page et extrayez son contenu en utilisant la bonne méthode.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)