1. 학습
  2. /
  3. 강의
  4. /
  5. Hugging Face 활용하기

Connected

연습 문제

PyPDF로 텍스트 추출하기

PyPDF를 사용하면 PDF에서 텍스트를 추출할 수 있어, 정책 문서처럼 여러 페이지로 된 문서를 다루기 쉬워집니다.

이 연습 문제에서는 US_Employee_Policy.pdf를 불러와 페이지별로 내용을 추출하고, 이를 하나의 문자열로 합쳐서 질문-응답 파이프라인에 사용할 텍스트를 준비해 보겠습니다.

지침

100 XP
  • pypdf에서 필요한 클래스를 임포트하고 이를 사용해 PDF 파일을 로드하세요.
  • 각 페이지에 접근한 뒤 올바른 메서드로 내용을 추출하세요.