Aan de slagGa gratis aan de slag

Een mask maken voor self-attention

Om ervoor te zorgen dat de decoder leert om tokens te voorspellen, is het belangrijk om toekomstige tokens te maskeren bij het modelleren van de invoersequenties. Je bouwt een mask in de vorm van een driehoeksmatrix met True- en False-waarden, met False-waarden in de bovenste diagonaal om toekomstige tokens uit te sluiten.

Deze oefening maakt deel uit van de cursus

Transformermodels met PyTorch

Cursus bekijken

Oefeninstructies

  • Maak een Booleaanse matrix, tgt_mark, om toekomstige tokens te maskeren in het attention-mechanisme van de decoderbody.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

seq_length= 3

# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
  torch.____(1, ____, ____), diagonal=____)
).____()

print(tgt_mask)
Code bewerken en uitvoeren