ćwiczenie

Tworzenie klasy MultiHeadAttention

Masz już zdefiniowane klasy do tworzenia osadzeń tokenów i osadzeń pozycyjnych. Czas zdefiniować klasę do wykonywania mechanizmu wielogłowicowej uwagi. Na początek skonfiguruj parametry potrzebne do obliczeń uwagi oraz warstwy liniowe służące do przekształcania osadzeń wejściowych w macierze zapytań, kluczy i wartości, a także jedną warstwę do rzutowania połączonych wag uwagi z powrotem na osadzenia.

torch.nn zostało zaimportowane jako nn.

Instrukcje

100 XP

Oblicz wymiarowość osadzeń przetwarzanych przez każdą głowicę uwagi: head_dim.
Zdefiniuj trzy warstwy wejściowe (dla zapytania, klucza i wartości) oraz jedną warstwę wyjściową; usuń parametr bias z warstw wejściowych.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}ćwiczenie

Instrukcje

ćwiczenie