1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele Transformer w PyTorch

Connected

ćwiczenie

Tworzenie klasy MultiHeadAttention

Masz już zdefiniowane klasy do tworzenia osadzeń tokenów i osadzeń pozycyjnych. Czas zdefiniować klasę do wykonywania mechanizmu wielogłowicowej uwagi. Na początek skonfiguruj parametry potrzebne do obliczeń uwagi oraz warstwy liniowe służące do przekształcania osadzeń wejściowych w macierze zapytań, kluczy i wartości, a także jedną warstwę do rzutowania połączonych wag uwagi z powrotem na osadzenia.

torch.nn zostało zaimportowane jako nn.

Instrukcje

100 XP
  • Oblicz wymiarowość osadzeń przetwarzanych przez każdą głowicę uwagi: head_dim.
  • Zdefiniuj trzy warstwy wejściowe (dla zapytania, klucza i wartości) oraz jedną warstwę wyjściową; usuń parametr bias z warstw wejściowych.