ComenzarEmpieza gratis

Añadir cross-attention a la capa del decodificador

Para integrar las pilas de codificador y decodificador que definiste antes en un transformer encoder-decoder, necesitas crear un mecanismo de cross-attention que actúe como puente entre ambas.

La clase MultiHeadAttention que definiste anteriormente sigue disponible.

Este ejercicio forma parte del curso

Modelos Transformer con PyTorch

Ver curso

Instrucciones del ejercicio

  • Define un mecanismo de cross-attention (usando MultiHeadAttention) y una tercera normalización por capas (usando nn.LayerNorm) en el método __init__.
  • Completa la pasada forward para añadir la cross-attention a la capa del decodificador.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

class DecoderLayer(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout):
        super().__init__()
        self.self_attn = MultiHeadAttention(d_model, num_heads)
        # Define cross-attention and a third layer normalization
        self.cross_attn = ____
        self.ff_sublayer = FeedForwardSubLayer(d_model, d_ff)
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.norm3 = ____
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, y, tgt_mask, cross_mask):
        self_attn_output = self.self_attn(x, x, x, tgt_mask)
        x = self.norm1(x + self.dropout(self_attn_output))
        # Complete the forward pass
        cross_attn_output = self.____(____)
        x = self.norm2(x + self.dropout(____))
        ff_output = self.ff_sublayer(x)
        x = self.norm3(x + self.dropout(ff_output))
        return x
Editar y ejecutar código