Daten mit LightningDataModule aufteilen
Du wirst die „ setup
”-Methode in einem „ LightningDataModule
” abschließen. Eine gute Aufteilung der Datensätze sorgt dafür, dass das Modell auf einer Teilmenge trainiert und auf einer anderen validiert wird, was Überanpassung verhindert.
Der „ dataset
” wurde schon vorinstalliert.
Diese Übung ist Teil des Kurses
Skalierbare KI-Modelle mit PyTorch Lightning
Anleitung zur Übung
- Importier „
random_split
“, um den Datensatz in Trainings- und Validierungsdaten aufzuteilen. - Teile den Datensatz mit „
random_split
“ in einen Trainingssatz (80 %) und einen Validierungssatz (20 %) auf.
Interaktive Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Import libraries
import lightning.pytorch as pl
from torch.utils.data import ____
class SplitDataModule(pl.LightningDataModule):
def __init__(self):
super().__init__()
self.train_data = None
self.val_data = None
def setup(self, stage=None):
# Split the dataset into training (80%) and validation (20%)
self.____, self.____ = random_split(dataset, [____, ____])