Progettare una maschera per la self-attention
Per permettere al decoder di imparare a predire i token, è importante mascherare i token futuri quando si modellano le sequenze in input. Costruirai una maschera sotto forma di matrice triangolare di valori True e False, con False nella diagonale superiore per escludere i token futuri.
Questo esercizio fa parte del corso
Modelli Transformer con PyTorch
Istruzioni dell'esercizio
- Crea una matrice booleana,
tgt_mark, per mascherare i token futuri nel meccanismo di attention del corpo del decoder.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)