Podwarstwy feed-forward

Podwarstwy feed-forward przekształcają wyjścia mechanizmu uwagi w abstrakcyjne, nieliniowe reprezentacje, co pozwala lepiej uchwycić złożone zależności.

W tym ćwiczeniu zbudujesz klasę FeedForwardSubLayer na potrzeby transfromatora typu encoder-only. Warstwa ta składa się z dwóch warstw liniowych z funkcją aktywacji ReLU pomiędzy nimi. Przyjmuje dwa parametry – d_model i d_ff – które odpowiadają odpowiednio wymiarowości osadzeń wejściowych oraz wymiarowi między warstwami liniowymi.

Zmienne d_model i d_ff są już dostępne i gotowe do użycia.

Zdefiniuj pierwszą i drugą warstwę liniową oraz aktywację ReLU dla klasy podwarstwy feed-forward, używając d_model oraz wymiaru d_ff między warstwami.
W metodzie forward() przepuść dane wejściowe kolejno przez warstwy i funkcję aktywacji.
Utwórz instancję klasy FeedForwardSubLayer, korzystając z podanych wartości d_model i d_ff (odpowiednio 512 i 2048), a następnie zastosuj ją do osadzeń wejściowych x.

Bài tập

Podwarstwy feed-forward

Hướng dẫn

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}Bài tập

Hướng dẫn

Bài tập