ComenzarEmpieza gratis

Extraer texto con PyPDF

PyPDF nos permite extraer texto de los PDF, facilitando el trabajo con documentos de varias páginas, como los archivos normativos.

En este ejercicio, cargarás el sitio US_Employee_Policy.pdf, extraerás su contenido página por página y lo combinarás en una sola cadena, preparando el texto para una cadena de preguntas-respuestas.

Este ejercicio forma parte del curso

Trabajar con Cara Abrazada

Ver curso

Instrucciones del ejercicio

  • Importa la clase necesaria de pypdf y utilízala para cargar el archivo PDF.
  • Accede a cada página y extrae su contenido utilizando el método correcto.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Editar y ejecutar código