Codificador de linguagem Shakespeariana

Com o texto shakespeariano pré-processado em mãos, agora você precisa codificá-lo em uma representação numérica. Antes de montar o pipeline, será necessário definir as etapas de codificação. Para lidar melhor com grandes volumes de dados e realizar a codificação de forma eficiente, você usará o Dataset e o DataLoader do PyTorch para criar lotes (batching) e embaralhar (shuffling) os dados.

Os seguintes itens já foram carregados para você: torch, nltk, stopwords, PorterStemmer, get_tokenizer, CountVectorizer, Dataset, DataLoader e preprocess_sentences.

O processed_shakespeare, derivado do texto shakespeariano, também está disponível para você.

Este exercicio faz parte do curso

Deep Learning para Texto com PyTorch

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Define your Dataset class
class ____(Dataset):
    def __init__(self, data):
        self.data = ____
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        return self.____[____]

Editar e Executar Código