CommencerCommencer gratuitement

Extraire du texte avec PyPDF

PyPDF permet d’extraire du texte à partir de PDF, ce qui facilite le traitement de documents multi‑pages comme des politiques internes.

Dans cet exercice, vous allez charger US_Employee_Policy.pdf, en extraire le contenu page par page, puis le combiner en une seule chaîne de caractères, afin de préparer le texte pour un pipeline de questions‑réponses.

Cet exercice fait partie du cours

Travailler avec Hugging Face

Afficher le cours

Instructions

  • Importez la classe nécessaire depuis pypdf et utilisez‑la pour charger le fichier PDF.
  • Accédez à chaque page et extrayez son contenu avec la méthode appropriée.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Modifier et exécuter le code