Kendine-dikkat için bir maske tasarlamak
Decoder'ın token tahmini öğrenebilmesi için, girdi dizilerini modellerken gelecekteki token'ların maskelenmesi önemlidir. True ve False değerlerinden oluşan üçgensel bir maske oluşturacaksın; gelecekteki token'ları hariç tutmak için üst diyagonal kısımda False değerleri olacak.
Bu egzersiz, kursun bir parçasıdır
PyTorch ile Transformer Modelleri
Egzersiz talimatları
- Decoder gövdesinin dikkat mekanizmasında gelecekteki token'ları maskelemek için
tgt_markadlı bir Boole matrisi oluştur.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)