IniziaInizia gratis

Progettare una maschera per la self-attention

Per permettere al decoder di imparare a predire i token, è importante mascherare i token futuri quando si modellano le sequenze in input. Costruirai una maschera sotto forma di matrice triangolare di valori True e False, con False nella diagonale superiore per escludere i token futuri.

Questo esercizio fa parte del corso

Modelli Transformer con PyTorch

Visualizza il corso

Istruzioni dell'esercizio

  • Crea una matrice booleana, tgt_mark, per mascherare i token futuri nel meccanismo di attention del corpo del decoder.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

seq_length= 3

# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
  torch.____(1, ____, ____), diagonal=____)
).____()

print(tgt_mask)
Modifica ed esegui il codice