Een mask maken voor self-attention
Om ervoor te zorgen dat de decoder leert om tokens te voorspellen, is het belangrijk om toekomstige tokens te maskeren bij het modelleren van de invoersequenties. Je bouwt een mask in de vorm van een driehoeksmatrix met True- en False-waarden, met False-waarden in de bovenste diagonaal om toekomstige tokens uit te sluiten.
Deze oefening maakt deel uit van de cursus
Transformermodels met PyTorch
Oefeninstructies
- Maak een Booleaanse matrix,
tgt_mark, om toekomstige tokens te maskeren in het attention-mechanisme van de decoderbody.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)