Criando uma máscara para self-attention
Para garantir que o decoder consiga aprender a prever tokens, é importante mascarar os tokens futuros ao modelar as sequências de entrada. Você vai construir uma máscara no formato de uma matriz triangular de valores True e False, com False na diagonal superior para excluir tokens futuros.
Este exercício faz parte do curso
Modelos Transformer com PyTorch
Instruções do exercício
- Crie uma matriz booleana,
tgt_mark, para mascarar tokens futuros no mecanismo de atenção do corpo do decoder.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)