Ensemble de données PyTorch
Il est temps de rafraîchir vos connaissances sur les ensembles de données PyTorch !
Avant de commencer l'apprentissage du modèle, vous devez charger les données et les transmettre au modèle dans le bon format. Dans PyTorch, cela est géré par les Datasets et les DataLoaders. Commençons par créer un jeu de données PyTorch pour nos données sur la potabilité de l'eau.
Dans cet exercice, vous définirez une classe appelée WaterDataset
pour charger les données d'un fichier CSV. Pour ce faire, vous devrez implémenter les trois méthodes que PyTorch attend d'un Dataset :
.__init__()
pour charger les données,.__len__()
pour renvoyer la taille des données,.__getitem()__
pour extraire les caractéristiques et l'étiquette d'un seul échantillon.
Les importations suivantes dont vous avez besoin ont déjà été effectuées pour vous :
import pandas as pd
from torch.utils.data import Dataset
Cet exercice fait partie du cours
Deep learning intermédiaire avec PyTorch
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
class WaterDataset(Dataset):
def __init__(self, csv_path):
super().__init__()
# Load data to pandas DataFrame
df = ____
# Convert data to a NumPy array and assign to self.data
____ = ____.____