1. 학습
  2. /
  3. 강의
  4. /
  5. PyTorch로 배우는 Transformer 모델

Connected

연습 문제

Self-Attention용 마스크 설계

decoder가 토큰을 예측하도록 학습하려면 입력 시퀀스를 모델링할 때 미래 토큰을 마스킹하는 것이 중요합니다. True와 False 값으로 이루어진 삼각 행렬 형태의 마스크를 만드세요. 미래 토큰을 제외하기 위해 상삼각 대각선 위쪽에는 False 값을 배치합니다.

지침

100 XP
  • decoder 본문의 attention 메커니즘에서 미래 토큰을 마스킹할 불리언 행렬 tgt_mark를 생성하세요.