Warstwa dekodera

Podobnie jak transformery enkodera, transformery dekodera również składają się z wielu warstw, które korzystają z wielogłowicowej uwagi (multi-head attention) i podwarstw feed-forward. Spróbuj połączyć te komponenty, aby zbudować klasę DecoderLayer.

Do dyspozycji masz klasy MultiHeadAttention i FeedForwardSubLayer, a także wcześniej utworzoną maskę tgt_mask.

Uzupełnij metodę forward(), aby przepuścić wejściowe osadzenia przez warstwy zdefiniowane w metodzie __init__:

Wykonaj obliczenia uwagi, używając podanej maski tgt_mask oraz wejściowych osadzeń x jako macierzy zapytania, klucza i wartości.
Zastosuj dropout oraz pierwszą normalizację warstwy, norm1.
Przeprowadź dane przez podwarstwę feed-forward, ff_sublayer.
Zastosuj dropout oraz drugą normalizację warstwy, norm2.

ćwiczenie

Warstwa dekodera

Instrukcje

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie