CommencerCommencer gratuitement

Concevoir un masque pour l’auto-attention

Pour permettre au décodeur d’apprendre à prédire les tokens, il est essentiel de masquer les tokens futurs lors de la modélisation des séquences d’entrée. Vous allez construire un masque sous la forme d’une matrice triangulaire de valeurs True et False, avec des False sur la diagonale supérieure pour exclure les tokens futurs.

Cet exercice fait partie du cours

Modèles Transformer avec PyTorch

Afficher le cours

Instructions

  • Créez une matrice booléenne tgt_mark pour masquer les tokens futurs dans le mécanisme d’attention du corps du décodeur.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

seq_length= 3

# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
  torch.____(1, ____, ____), diagonal=____)
).____()

print(tgt_mask)
Modifier et exécuter le code