Diseñar una máscara para self-attention
Para que el decodificador pueda aprender a predecir tokens, es importante enmascarar los tokens futuros al modelar las secuencias de entrada. Construirás una máscara en forma de matriz triangular de valores True y False, con False en la diagonal superior para excluir los tokens futuros.
Este ejercicio forma parte del curso
Modelos Transformer con PyTorch
Instrucciones del ejercicio
- Crea una matriz booleana,
tgt_mark, para enmascarar los tokens futuros en el mecanismo de atención del cuerpo del decodificador.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)