1. Nauka
  2. /
  3. Kursy
  4. /
  5. Modele Transformer w PyTorch

Connected

ćwiczenie

Dodawanie uwagi krzyżowej do warstwy dekodera

Aby zintegrować wcześniej zdefiniowane stosy kodera i dekodera w transformerze typu koder-dekoder, musisz utworzyć mechanizm uwagi krzyżowej, który będzie pełnił rolę mostu między nimi.

Klasa MultiHeadAttention, którą zdefiniowano wcześniej, jest nadal dostępna.

Instrukcje

100 XP
  • Zdefiniuj mechanizm uwagi krzyżowej (używając MultiHeadAttention) oraz trzecią normalizację warstwy (używając nn.LayerNorm) w metodzie __init__.
  • Uzupełnij przejście w przód, dodając uwagę krzyżową do warstwy dekodera.