1. Apprendre
  2. /
  3. Cours
  4. /
  5. Travailler avec Hugging Face

Connected

Exercice

Extraction de texte avec PyPDF

PyPDF permet d'extraire du texte de fichiers PDF, ce qui facilite le traitement de documents multipages comme des politiques internes.

Dans cet exercice, vous allez charger US_Employee_Policy.pdf, extraire son contenu page par page, puis le combiner en une seule chaîne de caractères afin de préparer le texte pour un pipeline de questions-réponses.

Instructions

100 XP
  • Importez la classe requise depuis pypdf et utilisez-la pour charger le fichier PDF.
  • Accédez à chaque page et extrayez son contenu avec la méthode appropriée.