Positional encoding 만들기

토큰을 임베딩하는 것은 좋은 출발이지만, 아직 각 토큰의 시퀀스 내 위치 정보가 없습니다. 이를 보완하기 위해 transformer 아키텍처는 positional encoding을 사용해요. 각 토큰의 위치 정보를 임베딩에 인코딩하는 방식입니다.

다음 매개변수를 갖는 PositionalEncoding 클래스를 만들어 보세요:

d_model: 입력 임베딩의 차원 수
max_seq_length: 최대 시퀀스 길이(모든 시퀀스 길이가 같다면 해당 시퀀스 길이)

max_seq_length × d_model 크기의 0으로 채운 행렬을 만드세요.
짝수와 홀수 위치 임베딩 값을 만들기 위해 position * div_term에 대해 sine과 cosine 계산을 수행하세요.
학습 중 pe가 학습 가능한 파라미터가 되지 않도록 하세요.
변환된 positional embedding을 입력 토큰 임베딩 x에 더하세요.