Concevoir un masque pour l’auto-attention
Pour permettre au décodeur d’apprendre à prédire les tokens, il est essentiel de masquer les tokens futurs lors de la modélisation des séquences d’entrée. Vous allez construire un masque sous la forme d’une matrice triangulaire de valeurs True et False, avec des False sur la diagonale supérieure pour exclure les tokens futurs.
Cet exercice fait partie du cours
<cours>Modèles Transformer avec PyTorch</cours>Instructions de l’exercice
- Créez une matrice booléenne
tgt_markpour masquer les tokens futurs dans le mécanisme d’attention du corps du décodeur.
Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)