CommencerCommencer gratuitement

Dataset PyTorch

Il est temps de rafraîchir vos connaissances sur les Datasets PyTorch !

Avant d'entraîner un modèle, vous devez charger les données et les transmettre au modèle dans le bon format. Dans PyTorch, cela se fait via les Datasets et les DataLoaders. Commençons par construire un Dataset PyTorch pour nos données de potabilité de l’eau.

Dans cet exercice, vous allez définir une classe appelée WaterDataset pour charger les données depuis un fichier CSV. Pour cela, vous devez implémenter les trois méthodes qu’un Dataset PyTorch doit fournir :

  • .__init__() pour charger les données,
  • .__len__() pour renvoyer la taille des données,
  • .__getitem()__ pour extraire les variables explicatives et le label d’un échantillon.

Les imports nécessaires ont déjà été effectués pour vous :

import pandas as pd
from torch.utils.data import Dataset

Cet exercice fait partie du cours

Deep learning intermédiaire avec PyTorch

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

class WaterDataset(Dataset):
    def __init__(self, csv_path):
        super().__init__()
        # Load data to pandas DataFrame
        df = ____
        # Convert data to a NumPy array and assign to self.data
        ____ = ____.____
Modifier et exécuter le code