1. Learn
  2. /
  3. Courses
  4. /
  5. Hugging Face を使いこなす

Connected

Exercise

PyPDF でテキストを抽出する

PyPDF を使うと PDF からテキストを抽出でき、ポリシー文書のような複数ページのドキュメントも簡単に扱えます。

この演習では、US_Employee_Policy.pdf を読み込み、ページごとに内容を抽出して 1 つの文字列に結合し、質問応答パイプラインに渡せるテキストを用意します。

Instructions

100 XP
  • 必要なクラスを pypdf からインポートし、それを使って PDF ファイルを読み込みます。
  • 各ページにアクセスし、適切なメソッドで内容を抽出します。