멀티헤드 어텐션 구현

직접 MultiHeadAttention 클래스를 구현하기 전에, 이 클래스를 먼저 사용해 보면서 query, key, value 행렬이 어떻게 변환되는지 살펴보겠습니다. 이 행렬들은 학습된 가중치를 사용하는 선형 변환으로 입력 임베딩을 투영해 생성된다는 점을 떠올려 주세요.

query, key, value 행렬은 이미 준비되어 있으며, MultiHeadAttention도 미리 정의되어 있습니다.