연습 문제

셰익스피어 문어체 전처리 파이프라인

PyBooks 팀은 대규모 셰익스피어 텍스트 데이터를 후속 분석에 활용할 수 있도록 변환하려고 해요. 가장 효율적인 방법은 전처리 단계부터 시작하는 텍스트 처리 파이프라인을 구축하는 거예요.

다음 항목들이 미리 로드되어 있어요: torch, nltk, stopwords, PorterStemmer, get_tokenizer.

셰익스피어 텍스트 데이터는 shakespeare로 저장되어 있으며, 문장은 이미 추출되어 있어요.

undefined XP