Mengekstrak teks dengan PyPDF
PyPDF memungkinkan kita mengekstrak teks dari PDF, sehingga mudah bekerja dengan dokumen multi-halaman seperti berkas kebijakan.
Pada latihan ini, Anda akan memuat US_Employee_Policy.pdf, mengekstrak isinya per halaman, lalu menggabungkannya menjadi satu string, sehingga teks siap digunakan untuk pipeline tanya jawab.
Latihan ini adalah bagian dari kursus
Bekerja dengan Hugging Face
Petunjuk latihan
- Impor kelas yang diperlukan dari
pypdfdan gunakan untuk memuat berkas PDF. - Akses setiap halaman dan ekstrak isinya menggunakan metode yang benar.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
from pypdf import ____
# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")
# Extract text from all pages
document_text = ""
for page in reader.____:
document_text += page.____()
print(document_text)