Implementando multi-head attention
Antes de começar a construir sua própria classe MultiHeadAttention, você vai experimentá-la para ver como ela transforma as matrizes de query, key e value. Lembre-se de que essas matrizes são geradas projetando as embeddings de entrada usando transformações lineares com pesos aprendidos.
As matrizes query, key e value já foram criadas para você, e a MultiHeadAttention já foi definida.
Este exercício faz parte do curso
Modelos Transformer com PyTorch
Instruções do exercício
- Defina os parâmetros de atenção para oito cabeças de atenção e embeddings de entrada com dimensionalidade
512. - Crie uma instância da classe
MultiHeadAttentionusando os parâmetros definidos. - Passe as matrizes
query,keyevaluepelo mecanismomultihead_attn.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Define attention parameters
d_model = ____
num_heads = ____
# Instantiate a MultiHeadAttention instance
multihead_attn = ____
# Pass the query, key, and value matrices through the mechanism
output = ____
print(output.shape)