Kendine-dikkat için bir maske tasarlamak
Decoder'ın token tahmini öğrenebilmesi için, girdi dizilerini modellerken gelecekteki token'ların maskelenmesi önemlidir. True ve False değerlerinden oluşan üçgensel bir maske oluşturacaksın; gelecekteki token'ları hariç tutmak için üst diyagonal kısımda False değerleri olacak.
Bu egzersiz
PyTorch ile Transformer Modelleri
kursunun bir parçasıdırEgzersiz talimatları
- Decoder gövdesinin dikkat mekanizmasında gelecekteki token'ları maskelemek için
tgt_markadlı bir Boole matrisi oluştur.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)