Extraire du texte avec PyPDF
PyPDF permet d’extraire du texte à partir de PDF, ce qui facilite le traitement de documents multi‑pages comme des politiques internes.
Dans cet exercice, vous allez charger US_Employee_Policy.pdf, en extraire le contenu page par page, puis le combiner en une seule chaîne de caractères, afin de préparer le texte pour un pipeline de questions‑réponses.
Cet exercice fait partie du cours
Travailler avec Hugging Face
Instructions
- Importez la classe nécessaire depuis
pypdfet utilisez‑la pour charger le fichier PDF. - Accédez à chaque page et extrayez son contenu avec la méthode appropriée.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)