CommencerCommencer gratuitement

Ensemble de données PyTorch

Il est temps de rafraîchir vos connaissances sur les ensembles de données PyTorch !

Avant de commencer l'apprentissage du modèle, vous devez charger les données et les transmettre au modèle dans le bon format. Dans PyTorch, cela est géré par les Datasets et les DataLoaders. Commençons par créer un jeu de données PyTorch pour nos données sur la potabilité de l'eau.

Dans cet exercice, vous définirez une classe appelée WaterDataset pour charger les données d'un fichier CSV. Pour ce faire, vous devrez implémenter les trois méthodes que PyTorch attend d'un Dataset :

  • .__init__() pour charger les données,
  • .__len__() pour renvoyer la taille des données,
  • .__getitem()__ pour extraire les caractéristiques et l'étiquette d'un seul échantillon.

Les importations suivantes dont vous avez besoin ont déjà été effectuées pour vous :

import pandas as pd
from torch.utils.data import Dataset

Cet exercice fait partie du cours

Deep learning intermédiaire avec PyTorch

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

class WaterDataset(Dataset):
    def __init__(self, csv_path):
        super().__init__()
        # Load data to pandas DataFrame
        df = ____
        # Convert data to a NumPy array and assign to self.data
        ____ = ____.____
Modifier et exécuter le code