ComenzarEmpieza gratis

Diseñar una máscara para self-attention

Para que el decodificador pueda aprender a predecir tokens, es importante enmascarar los tokens futuros al modelar las secuencias de entrada. Construirás una máscara en forma de matriz triangular de valores True y False, con False en la diagonal superior para excluir los tokens futuros.

Este ejercicio forma parte del curso

Modelos Transformer con PyTorch

Ver curso

Instrucciones del ejercicio

  • Crea una matriz booleana, tgt_mark, para enmascarar los tokens futuros en el mecanismo de atención del cuerpo del decodificador.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

seq_length= 3

# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
  torch.____(1, ____, ____), diagonal=____)
).____()

print(tgt_mask)
Editar y ejecutar código