Een mask maken voor self-attention
Om ervoor te zorgen dat de decoder leert om tokens te voorspellen, is het belangrijk om toekomstige tokens te maskeren bij het modelleren van de invoersequenties. Je bouwt een mask in de vorm van een driehoeksmatrix met True- en False-waarden, met False-waarden in de bovenste diagonaal om toekomstige tokens uit te sluiten.
Deze oefening maakt deel uit van de cursus
Transformermodels met PyTorch
Oefeninstructies
- Maak een Booleaanse matrix,
tgt_mark, om toekomstige tokens te maskeren in het attention-mechanisme van de decoderbody.
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)