CommencerCommencer gratuitement

Encodeur de langue shakespearienne

Avec le texte shakespearien prétraité à portée de main, vous devez maintenant l’encoder sous une forme numérique. Vous devrez définir les étapes d’encodage avant de mettre en place le pipeline. Pour mieux gérer de grandes quantités de données et effectuer l’encodage de manière efficace, vous utiliserez le Dataset et le DataLoader de PyTorch pour regrouper et mélanger les données.

Les éléments suivants ont été chargés pour vous : torch, nltk, stopwords, PorterStemmer, get_tokenizer, CountVectorizer, Dataset, DataLoader et preprocess_sentences.

Le processed_shakespeare du texte shakespearien est également à votre disposition.

Cet exercice fait partie du cours

Deep Learning pour le texte avec PyTorch

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Define your Dataset class
class ____(Dataset):
    def __init__(self, data):
        self.data = ____
    def __len__(self):
        return len(self.data)
    def __getitem__(self, idx):
        return self.____[____]
Modifier et exécuter le code