Shakespeare-Sprachencoder
Mit dem vorverarbeiteten Shakespeare-Text musst du ihn jetzt in eine numerische Darstellung codieren. Definiere die Codierungsschritte, bevor du die Pipeline zusammenbaust. Um große Datenmengen besser zu handhaben und die Codierung effizient durchzuführen, verwendest du PyTorchs Dataset und DataLoader zum Batching und Shufflen der Daten.
Folgendes wurde für dich geladen:
torch, nltk, stopwords, PorterStemmer, get_tokenizer, CountVectorizer, Dataset, DataLoader und preprocess_sentences.
Das aus dem Shakespeare-Text abgeleitete processed_shakespeare steht dir ebenfalls zur Verfügung.
Diese Übung ist Teil des Kurses
Deep Learning für Text mit PyTorch
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Define your Dataset class
class ____(Dataset):
def __init__(self, data):
self.data = ____
def __len__(self):
return len(self.data)
def __getitem__(self, idx):
return self.____[____]