Encoder del linguaggio shakespeareano
Con il testo shakespeareano già preprocessato a disposizione, ora devi codificarlo in una rappresentazione numerica. Dovrai definire i passaggi di codifica prima di assemblare la pipeline. Per gestire meglio grandi quantità di dati ed eseguire la codifica in modo efficiente, userai Dataset e DataLoader di PyTorch per creare batch e mescolare i dati.
Sono già stati caricati per te:
torch, nltk, stopwords, PorterStemmer, get_tokenizer, CountVectorizer, Dataset, DataLoader e preprocess_sentences.
Hai anche a disposizione processed_shakespeare ricavato dal testo shakespeareano.
Questo esercizio fa parte del corso
Deep Learning per il testo con PyTorch
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Define your Dataset class
class ____(Dataset):
def __init__(self, data):
self.data = ____
def __len__(self):
return len(self.data)
def __getitem__(self, idx):
return self.____[____]