ComenzarEmpieza gratis

Extracción de texto con PyPDF

PyPDF nos permite extraer texto de archivos PDF, lo que facilita el trabajo con documentos de varias páginas, como los archivos de políticas.

En este ejercicio, cargarás el archivo US_Employee_Policy.pdf, extraerás su contenido página por página y lo combinarás en una sola cadena, preparando el texto para un proceso de preguntas y respuestas.

Este ejercicio forma parte del curso

Trabajar con Hugging Face

Ver curso

Instrucciones del ejercicio

  • Importa la clase necesaria desde pypdf y utilízala para cargar el archivo PDF.
  • Accede a cada página y extrae su contenido utilizando el método correcto.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Editar y ejecutar código