Decoder katmanına çapraz-dikkat eklemek
Daha önce tanımladığın kodlayıcı ve kod çözücü yığınlarını bir kodlayıcı-kod çözücü (encoder-decoder) transformer’a entegre etmek için, ikisi arasında köprü görevi görecek bir çapraz-dikkat mekanizması oluşturman gerekiyor.
Daha önce tanımladığın MultiHeadAttention sınıfı hâlâ kullanılabilir.
Bu egzersiz
PyTorch ile Transformer Modelleri
kursunun bir parçasıdırEgzersiz talimatları
__init__metodunda bir çapraz-dikkat mekanizması (MultiHeadAttentionkullanarak) ve üçüncü bir katman normalizasyonu (nn.LayerNormkullanarak) tanımla.- İleri yayılımı (forward pass) tamamlayarak decoder katmanına çapraz-dikkati ekle.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
class DecoderLayer(nn.Module):
def __init__(self, d_model, num_heads, d_ff, dropout):
super().__init__()
self.self_attn = MultiHeadAttention(d_model, num_heads)
# Define cross-attention and a third layer normalization
self.cross_attn = ____
self.ff_sublayer = FeedForwardSubLayer(d_model, d_ff)
self.norm1 = nn.LayerNorm(d_model)
self.norm2 = nn.LayerNorm(d_model)
self.norm3 = ____
self.dropout = nn.Dropout(dropout)
def forward(self, x, y, tgt_mask, cross_mask):
self_attn_output = self.self_attn(x, x, x, tgt_mask)
x = self.norm1(x + self.dropout(self_attn_output))
# Complete the forward pass
cross_attn_output = self.____(____)
x = self.norm2(x + self.dropout(____))
ff_output = self.ff_sublayer(x)
x = self.norm3(x + self.dropout(ff_output))
return x