Dataset PyTorch
Il est temps de rafraîchir vos connaissances sur les Datasets PyTorch !
Avant d'entraîner un modèle, vous devez charger les données et les transmettre au modèle dans le bon format. Dans PyTorch, cela se fait via les Datasets et les DataLoaders. Commençons par construire un Dataset PyTorch pour nos données de potabilité de l’eau.
Dans cet exercice, vous allez définir une classe appelée WaterDataset pour charger les données depuis un fichier CSV. Pour cela, vous devez implémenter les trois méthodes qu’un Dataset PyTorch doit fournir :
.__init__()pour charger les données,.__len__()pour renvoyer la taille des données,.__getitem()__pour extraire les variables explicatives et le label d’un échantillon.
Les imports nécessaires ont déjà été effectués pour vous :
import pandas as pd
from torch.utils.data import Dataset
Cet exercice fait partie du cours
Deep learning intermédiaire avec PyTorch
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
class WaterDataset(Dataset):
def __init__(self, csv_path):
super().__init__()
# Load data to pandas DataFrame
df = ____
# Convert data to a NumPy array and assign to self.data
____ = ____.____