ComeçarComece de graça

Implementando multi-head attention

Antes de começar a construir sua própria classe MultiHeadAttention, você vai experimentá-la para ver como ela transforma as matrizes de query, key e value. Lembre-se de que essas matrizes são geradas projetando as embeddings de entrada usando transformações lineares com pesos aprendidos.

As matrizes query, key e value já foram criadas para você, e a MultiHeadAttention já foi definida.

Este exercício faz parte do curso

Modelos Transformer com PyTorch

Ver curso

Instruções do exercício

  • Defina os parâmetros de atenção para oito cabeças de atenção e embeddings de entrada com dimensionalidade 512.
  • Crie uma instância da classe MultiHeadAttention usando os parâmetros definidos.
  • Passe as matrizes query, key e value pelo mecanismo multihead_attn.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Define attention parameters
d_model = ____
num_heads = ____

# Instantiate a MultiHeadAttention instance
multihead_attn = ____

# Pass the query, key, and value matrices through the mechanism
output = ____
print(output.shape)
Editar e executar o código