Criando codificações posicionais
Fazer o embedding dos tokens é um bom começo, mas esses embeddings ainda não trazem informação sobre a posição de cada token na sequência. Para resolver isso, a arquitetura transformer usa codificações posicionais, que incorporam a informação de posição de cada token aos embeddings.
Você vai criar uma classe PositionalEncoding com os seguintes parâmetros:
d_model: a dimensionalidade dos embeddings de entradamax_seq_length: o tamanho máximo da sequência (ou o tamanho da sequência, se todas tiverem o mesmo comprimento)
Este exercício faz parte do curso
Modelos Transformer com PyTorch
Instruções do exercício
- Crie uma matriz de zeros com dimensões
max_seq_lengthpord_model. - Faça os cálculos de seno e cosseno em
position * div_termpara criar os valores pares e ímpares do embedding posicional. - Garanta que
penão seja um parâmetro treinável durante o treinamento. - Some os embeddings posicionais transformados aos embeddings de tokens de entrada,
x.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
class PositionalEncoding(nn.Module):
def __init__(self, d_model, max_seq_length):
super().__init__()
# Create a matrix of zeros of dimensions max_seq_length by d_model
pe = ____
position = torch.arange(0, max_seq_length, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(torch.arange(0, d_model, 2).float() * -(math.log(10000.0) / d_model))
# Perform the sine and cosine calculations
pe[:, 0::2] = torch.____(position * div_term)
pe[:, 1::2] = torch.____(position * div_term)
# Ensure pe isn't a learnable parameter during training
self.____('____', pe.unsqueeze(0))
def forward(self, x):
# Add the positional embeddings to the token embeddings
return ____ + ____[:, :x.size(1)]
pos_encoding_layer = PositionalEncoding(d_model=512, max_seq_length=4)
output = pos_encoding_layer(token_embeddings)
print(output.shape)
print(output[0][0][:10])