셰익스피어 문체 인코더

전처리된 셰익스피어 텍스트가 준비되었으니, 이제 이를 수치 표현으로 인코딩해야 해요. 파이프라인을 구성하기 전에 인코딩 단계를 먼저 정의해야 합니다. 대용량 데이터를 효율적으로 처리하고 인코딩 성능을 높이기 위해 PyTorch의 Dataset과 DataLoader를 사용해 배치 처리와 셔플을 수행할 거예요.

다음 객체가 미리 로드되어 있습니다: torch, nltk, stopwords, PorterStemmer, get_tokenizer, CountVectorizer, Dataset, DataLoader, 그리고 preprocess_sentences.

셰익스피어 텍스트에서 생성된 processed_shakespeare도 사용할 수 있어요.