Concevoir un masque pour l’auto-attention
Pour permettre au décodeur d’apprendre à prédire les tokens, il est essentiel de masquer les tokens futurs lors de la modélisation des séquences d’entrée. Vous allez construire un masque sous la forme d’une matrice triangulaire de valeurs True et False, avec des False sur la diagonale supérieure pour exclure les tokens futurs.
Cet exercice fait partie du cours
Modèles Transformer avec PyTorch
Instructions
- Créez une matrice booléenne
tgt_markpour masquer les tokens futurs dans le mécanisme d’attention du corps du décodeur.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)