Shakespeareaans taal-encoder
Met de voorbewerkte Shakespeareaans-tekst bij de hand moet je deze nu encoderen naar een numerieke representatie. Je definieert eerst de encodestappen voordat je de pipeline in elkaar zet. Om grote hoeveelheden data beter aan te kunnen en het encoden efficiënt uit te voeren, gebruik je PyTorch's Dataset en DataLoader om de data te batchen en te shufflen.
Het volgende is voor je ingeladen:
torch, nltk, stopwords, PorterStemmer, get_tokenizer, CountVectorizer, Dataset, DataLoader en preprocess_sentences.
De processed_shakespeare uit de Shakespeareaans-tekst is ook beschikbaar.
Deze oefening maakt deel uit van de cursus
Deep Learning voor tekst met PyTorch
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Define your Dataset class
class ____(Dataset):
def __init__(self, data):
self.data = ____
def __len__(self):
return len(self.data)
def __getitem__(self, idx):
return self.____[____]