BaşlayınÜcretsiz Başlayın

PyPDF ile metin çıkarma

PyPDF, PDF'lerden metin çıkarmamıza olanak tanır; bu da politika dosyaları gibi çok sayfalı belgelerle çalışmayı kolaylaştırır.

Bu egzersizde US_Employee_Policy.pdf dosyasını yükleyip içeriğini sayfa sayfa çıkaracak ve tek bir metin dizesinde birleştirerek metni soru-cevap hattına hazırlayacaksın.

Bu egzersiz

Hugging Face ile Çalışmak

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • Gerekli sınıfı pypdf içinden içe aktar ve PDF dosyasını yüklemek için kullan.
  • Her sayfaya eriş ve doğru yöntemle içeriğini çıkar.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

from pypdf import ____

# Extract text from the PDF
reader = ____("US_Employee_Policy.pdf")

# Extract text from all pages
document_text = ""
for page in reader.____: 
    document_text += page.____()

print(document_text)
Kodu Düzenle ve Çalıştır