1. 学ぶ
  2. /
  3. コース
  4. /
  5. Làm việc với Hugging Face

Connected

演習

Trích xuất văn bản với PyPDF

PyPDF cho phép bạn trích xuất văn bản từ PDF, giúp làm việc dễ dàng với các tài liệu nhiều trang như các tệp chính sách.

Trong bài tập này, bạn sẽ tải US_Employee_Policy.pdf, trích xuất nội dung theo từng trang và gộp lại thành một chuỗi duy nhất, chuẩn bị văn bản cho pipeline hỏi-đáp.

指示

100 XP
  • Import lớp cần thiết từ pypdf và dùng nó để tải tệp PDF.
  • Truy cập từng trang và trích xuất nội dung bằng phương thức phù hợp.