Inicialización y activación

Los problemas de gradientes inestables (que desaparecen o explotan) son un reto que se plantea a menudo en el entrenamiento de redes neuronales profundas. En este ejercicio y en los siguientes, ampliarás la arquitectura del modelo que construiste para la tarea de clasificación de la potabilidad del agua para hacerla más inmune a esos problemas.

Como primer paso, mejorarás la inicialización de los pesos mediante la estrategia de inicialización He (Kaiming). Para ello, tendrás que llamar al inicializador adecuado desde el módulo torch.nn.init, que se ha importado como init. A continuación, actualizarás las funciones de activación de la ReLU predeterminada a la ELU, a menudo mejor.

Este ejercicio forma parte del curso

Aprendizaje profundo intermedio con PyTorch

Instrucciones del ejercicio

Llama al inicializador He (Kaiming) en el atributo peso de la segunda capa, fc2, de forma similar a como se hace con fc1.
Llama al inicializador He (Kaiming) en el atributo peso de la tercera capa, fc3, y ten en cuenta la función de activación diferente utilizada en la capa final.
Actualiza las funciones de activación en el método forward() de relu a elu.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(9, 16)
        self.fc2 = nn.Linear(16, 8)
        self.fc3 = nn.Linear(8, 1)
        
        # Apply He initialization
        init.kaiming_uniform_(self.fc1.weight)
        ____(____)
        ____(____, ____)

    def forward(self, x):
        # Update ReLU activation to ELU
        x = nn.functional.relu(self.fc1(x))
        x = nn.functional.relu(self.fc2(x))
        x = nn.functional.sigmoid(self.fc3(x))
        return x

Editar y ejecutar código

Este ejercicio forma parte del curso

Aprendizaje profundo intermedio con PyTorch

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

Aprende a entrenar redes neuronales con calidad. En este capítulo, utilizarás la programación orientada a objetos para definir conjuntos de datos y modelos PyTorch y actualizarás tus conocimientos sobre el entrenamiento y la evaluación de redes neuronales. También te familiarizarás con distintos optimizadores y, por último, te familiarizarás con diversas técnicas que ayudan a mitigar los problemas de gradientes inestables tan omnipresentes en el entrenamiento de redes neuronales.

Exercise 1: PyTorch y la programación orientada a objetos Exercise 2: Conjunto de datos PyTorch Exercise 3: DataLoader PyTorch Exercise 4: Modelo PyTorch Exercise 5: Optimizadores, formación y evaluación Exercise 6: Bucle de entrenamiento Exercise 7: Optimizadores Exercise 8: Evaluación del modelo Exercise 9: Desvanecimiento y explosión de gradientes Exercise 10: Inicialización y activación

Ejercicio actual

Exercise 11: Activaciones: ReLU frente a ELU Exercise 12: Normalización por lotes

Entrena redes neuronales para resolver tareas de clasificación de imágenes. En este capítulo, aprenderás a manejar datos de imágenes en PyTorch y a familiarizarte con las redes neuronales convolucionales (CNN). Practicarás el entrenamiento y la evaluación de un clasificador de imágenes mientras aprendes cómo mejorar el rendimiento del modelo con el aumento de datos.

Exercise 1: Manipulación de imágenes con PyTorch Exercise 2: Conjunto de datos de imágenes Exercise 3: Aumento de datos Exercise 4: Aumento de datos en PyTorch Exercise 5: Redes neuronales convolucionales Exercise 6: La capa convolucional Exercise 7: Construcción de redes convolucionales Exercise 8: Entrenamiento de clasificadores de imágenes Exercise 9: Elección de los aumentos Exercise 10: Conjunto de datos con aumentos Exercise 11: Bucle de entrenamiento del clasificador de imágenes Exercise 12: Evaluación de clasificadores de imágenes Exercise 13: Evaluación de modelos multiclase Exercise 14: Análisis de las métricas por clase

Construye y entrena redes neuronales recurrentes (RNN) para procesar datos secuenciales como series temporales, texto o audio. Aprenderás sobre las dos arquitecturas recurrentes más populares, las redes de memoria a corto plazo (LSTM) y de unidad recurrente controlada (GRU), así como a preparar datos secuenciales para el entrenamiento del modelo. Practicarás tus habilidades entrenando y evaluando un modelo recurrente para predecir el consumo de electricidad.

Exercise 1: Manejo de secuencias con PyTorch Exercise 2: Generación de secuencias Exercise 3: Conjunto de datos secuenciales Exercise 4: Redes neuronales recurrentes Exercise 5: Arquitecturas secuenciales Exercise 6: Construcción de una previsión RNN Exercise 7: Celdas LSTM y GRU Exercise 8: RNN frente a LSTM frente a GRU Exercise 9: Red LSTM Exercise 10: Red GRU Exercise 11: Formación y evaluación de RNN Exercise 12: Bucle de entrenamiento de RNN Exercise 13: Evaluación de los modelos de previsión

Construye modelos multientrada y multisalida y demuestra cómo pueden manejar tareas que requieran más de una entrada o generen múltiples salidas. Vas a explorar cómo diseñar y entrenar estos modelos con PyTorch y profundizarás en el tema crucial de la ponderación de las pérdidas en los modelos multisalida. Esto implica comprender cómo equilibrar la importancia de las distintas tareas cuando se entrena a un modelo para que realice varias tareas simultáneamente.

Exercise 1: Modelos multientrada Exercise 2: Conjunto de datos de dos entradas Exercise 3: Modelo de dos entradas Exercise 4: Entrenamiento del modelo de dos entradas Exercise 5: Modelos multisalida Exercise 6: Conjunto de datos de dos salidas y DataLoader Exercise 7: Arquitectura del modelo de dos salidas Exercise 8: Entrenamiento de modelos multisalida Exercise 9: Evaluación de modelos multisalida y ponderación de pérdidas Exercise 10: Evaluación del modelo multisalida Exercise 11: Pérdida de peso Exercise 12: Resumen