1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. PyTorch로 배우는 텍스트 딥러닝

Connected

Bài tập

셰익스피어 문어체 전처리 파이프라인

PyBooks 팀은 대규모 셰익스피어 텍스트 데이터를 후속 분석에 활용할 수 있도록 변환하려고 해요. 가장 효율적인 방법은 전처리 단계부터 시작하는 텍스트 처리 파이프라인을 구축하는 거예요.

다음 항목들이 미리 로드되어 있어요: torch, nltk, stopwords, PorterStemmer, get_tokenizer.

셰익스피어 텍스트 데이터는 shakespeare로 저장되어 있으며, 문장은 이미 추출되어 있어요.

Hướng dẫn 1/3

undefined XP
    1
    2
    3
  • 고유한 영어 불용어 목록을 만들어 stop_words에 저장하세요.