Aan de slagGa gratis aan de slag

Cross-attention toevoegen aan de decoderlaag

Om de encoder- en decoderstacks die je eerder hebt gedefinieerd samen te brengen in een encoder-decoder-transformer, moet je een cross-attention-mechanisme maken dat als brug tussen beide fungeert.

De MultiHeadAttention-klasse die je eerder hebt gedefinieerd is nog steeds beschikbaar.

Deze oefening maakt deel uit van de cursus

Transformermodels met PyTorch

Cursus bekijken

Oefeninstructies

  • Definieer in de __init__-methode een cross-attention-mechanisme (met MultiHeadAttention) en een derde laagnormalisatie (met nn.LayerNorm).
  • Maak de forward pass af om cross-attention toe te voegen aan de decoderlaag.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

class DecoderLayer(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout):
        super().__init__()
        self.self_attn = MultiHeadAttention(d_model, num_heads)
        # Define cross-attention and a third layer normalization
        self.cross_attn = ____
        self.ff_sublayer = FeedForwardSubLayer(d_model, d_ff)
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.norm3 = ____
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, y, tgt_mask, cross_mask):
        self_attn_output = self.self_attn(x, x, x, tgt_mask)
        x = self.norm1(x + self.dropout(self_attn_output))
        # Complete the forward pass
        cross_attn_output = self.____(____)
        x = self.norm2(x + self.dropout(____))
        ff_output = self.ff_sublayer(x)
        x = self.norm3(x + self.dropout(ff_output))
        return x
Code bewerken en uitvoeren