1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele Transformer w PyTorch

Connected

ćwiczenie

Warstwa dekodera

Podobnie jak transformery enkodera, transformery dekodera również składają się z wielu warstw, które korzystają z wielogłowicowej uwagi (multi-head attention) i podwarstw feed-forward. Spróbuj połączyć te komponenty, aby zbudować klasę DecoderLayer.

Do dyspozycji masz klasy MultiHeadAttention i FeedForwardSubLayer, a także wcześniej utworzoną maskę tgt_mask.

Instrukcje

100 XP

Uzupełnij metodę forward(), aby przepuścić wejściowe osadzenia przez warstwy zdefiniowane w metodzie __init__:

  • Wykonaj obliczenia uwagi, używając podanej maski tgt_mask oraz wejściowych osadzeń x jako macierzy zapytania, klucza i wartości.
  • Zastosuj dropout oraz pierwszą normalizację warstwy, norm1.
  • Przeprowadź dane przez podwarstwę feed-forward, ff_sublayer.
  • Zastosuj dropout oraz drugą normalizację warstwy, norm2.