CommencerCommencer gratuitement

Extraction de texte avec PyPDF

PyPDF nous permet d'extraire du texte à partir de fichiers PDF, ce qui facilite le travail avec des documents de plusieurs pages tels que les fichiers de politique.

Dans cet exercice, vous allez charger le fichier US_Employee_Policy.pdf, extraire son contenu page par page et le combiner en une seule chaîne, préparant ainsi le texte pour un pipeline de questions-réponses.

Cet exercice fait partie du cours

Travailler avec Hugging Face

Afficher le cours

Instructions

  • Veuillez importer la classe requise depuis pypdf et l'utiliser pour charger le fichier PDF.
  • Accédez à chaque page et extrayez son contenu en utilisant la méthode appropriée.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Modifier et exécuter le code