1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Transformer Models with PyTorch

Connected

cvičení

Začínáme s třídou MultiHeadAttention

Teď, když máš hotové třídy pro vytváření token embeddings a pozičních embeddings, je čas definovat třídu pro výpočet multi-head attention. Začni tím, že nastavíš parametry potřebné pro výpočet attention a lineární vrstvy, které transformují vstupní embeddings na matice query, key a value — plus jednu vrstvu pro zpětnou projekci kombinovaných attention vah do embeddings.

torch.nn je importován jako nn.

Pokyny

100 XP
  • Vypočítej dimenzi embeddings, kterou bude zpracovávat každý attention head — head_dim.
  • Definuj tři vstupní vrstvy (pro query, key a value) a jednu výstupní vrstvu; ze vstupních vrstev odstraň parametr bias.