Dividir datos con LightningDataModule
Completarás el método « setup
» (Comer, beber y dormir) en un « LightningDataModule
» (Diario de control de la actividad). La partición adecuada del conjunto de datos garantiza que el modelo se entrene en un subconjunto y se valide en otro, lo que evita el sobreajuste.
El « dataset
» ya ha sido preimportado.
Este ejercicio forma parte del curso
Modelos de IA escalables con PyTorch Lightning
Instrucciones del ejercicio
- Importa
random_split
para dividir el conjunto de datos en entrenamiento y validación. - Divide el conjunto de datos en entrenamiento (80 %) y validación (20 %) utilizando
random_split
.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import libraries
import lightning.pytorch as pl
from torch.utils.data import ____
class SplitDataModule(pl.LightningDataModule):
def __init__(self):
super().__init__()
self.train_data = None
self.val_data = None
def setup(self, stage=None):
# Split the dataset into training (80%) and validation (20%)
self.____, self.____ = random_split(dataset, [____, ____])