1. Learn
  2. /
  3. 课程
  4. /
  5. 使用 Hugging Face

Connected

道练习

使用 PyPDF 提取文本

PyPDF 可以从 PDF 中提取文本,便于处理如政策文档这类多页文件。

在本练习中,您将加载 US_Employee_Policy.pdf,逐页提取其内容,并将其合并为一个字符串,为后续的问题解答(question-answering)pipeline 做好文本准备。

说明

100 XP
  • 从 pypdf 导入所需的类并用它加载 PDF 文件。
  • 访问每一页,并使用正确的方法提取其内容。