CommencerCommencer gratuitement

Extraction de texte avec PyPDF

PyPDF permet d'extraire du texte des PDF, ce qui facilite le travail avec des documents de plusieurs pages comme les fichiers de politiques.

Dans cet exercice, vous allez charger le site US_Employee_Policy.pdf, extraire son contenu page par page et le combiner en une seule chaîne, préparant ainsi le texte pour un pipeline de questions-réponses.

Cet exercice fait partie du cours

Travailler avec Hugging Face

Afficher le cours

Instructions

  • Importez la classe requise à partir de pypdf et utilisez-la pour charger le fichier PDF.
  • Accédez à chaque page et extrayez son contenu en utilisant la bonne méthode.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Modifier et exécuter le code