MulaiMulai sekarang secara gratis

Mengekstrak teks dengan PyPDF

PyPDF memungkinkan kita mengekstrak teks dari PDF, sehingga mudah bekerja dengan dokumen multi-halaman seperti berkas kebijakan.

Pada latihan ini, Anda akan memuat US_Employee_Policy.pdf, mengekstrak isinya per halaman, lalu menggabungkannya menjadi satu string, sehingga teks siap digunakan untuk pipeline tanya jawab.

Latihan ini adalah bagian dari kursus

Bekerja dengan Hugging Face

Lihat Kursus

Petunjuk latihan

  • Impor kelas yang diperlukan dari pypdf dan gunakan untuk memuat berkas PDF.
  • Akses setiap halaman dan ekstrak isinya menggunakan metode yang benar.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Edit dan Jalankan Kode