Encoder del linguaggio shakespeareano

Con il testo shakespeareano già preprocessato a disposizione, ora devi codificarlo in una rappresentazione numerica. Dovrai definire i passaggi di codifica prima di assemblare la pipeline. Per gestire meglio grandi quantità di dati ed eseguire la codifica in modo efficiente, userai Dataset e DataLoader di PyTorch per creare batch e mescolare i dati.

Sono già stati caricati per te: torch, nltk, stopwords, PorterStemmer, get_tokenizer, CountVectorizer, Dataset, DataLoader e preprocess_sentences.

Hai anche a disposizione processed_shakespeare ricavato dal testo shakespeareano.

Questo esercizio fa parte del corso

Deep Learning per il testo con PyTorch

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Define your Dataset class
class ____(Dataset):
    def __init__(self, data):
        self.data = ____
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        return self.____[____]

Modifica ed esegui il codice