ComeçarComece de graça

Criando uma máscara para self-attention

Para garantir que o decoder consiga aprender a prever tokens, é importante mascarar os tokens futuros ao modelar as sequências de entrada. Você vai construir uma máscara no formato de uma matriz triangular de valores True e False, com False na diagonal superior para excluir tokens futuros.

Este exercício faz parte do curso

Modelos Transformer com PyTorch

Ver curso

Instruções do exercício

  • Crie uma matriz booleana, tgt_mark, para mascarar tokens futuros no mecanismo de atenção do corpo do decoder.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

seq_length= 3

# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
  torch.____(1, ____, ____), diagonal=____)
).____()

print(tgt_mask)
Editar e executar o código