Codificador de linguagem Shakespeariana
Com o texto shakespeariano pré-processado em mãos, agora você precisa codificá-lo em uma representação numérica. Antes de montar o pipeline, será necessário definir as etapas de codificação. Para lidar melhor com grandes volumes de dados e realizar a codificação de forma eficiente, você usará o Dataset e o DataLoader do PyTorch para criar lotes (batching) e embaralhar (shuffling) os dados.
Os seguintes itens já foram carregados para você:
torch, nltk, stopwords, PorterStemmer, get_tokenizer, CountVectorizer, Dataset, DataLoader e preprocess_sentences.
O processed_shakespeare, derivado do texto shakespeariano, também está disponível para você.
Este exercício faz parte do curso
Deep Learning para Texto com PyTorch
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define your Dataset class
class ____(Dataset):
def __init__(self, data):
self.data = ____
def __len__(self):
return len(self.data)
def __getitem__(self, idx):
return self.____[____]