피드포워드 하위 계층

피드포워드 하위 계층은 Attention 출력값을 비선형의 추상 표현으로 매핑해 더 복잡한 관계를 잘 포착하도록 도와줘요.

이 연습에서는 인코더 전용 Transformer를 위한 FeedForwardSubLayer를 만들어 보세요. 이 계층은 두 개의 선형 계층 사이에 ReLU 활성화 함수를 두는 구조로 이뤄져요. 또한 입력 임베딩의 차원을 나타내는 d_model과, 두 선형 계층 사이의 차원을 나타내는 d_ff라는 두 매개변수를 받아요.

d_model과 d_ff는 이미 준비되어 있어 바로 사용할 수 있어요.