1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Transformer Models with PyTorch

Connected

cvičení

Přidání metod do třídy MultiHeadAttention

V tomto cvičení dokončíš třídu MultiHeadAttention od základu tím, že definuješ čtyři metody:

  • .split_heads(): rozdělí a transformuje vstupní embeddingy mezi jednotlivé attention hlavy
  • .compute_attention(): vypočítá škálované dot-product attention váhy vynásobené maticí hodnot
  • .combine_heads(): transformuje attention váhy zpět do stejného tvaru jako vstupní embeddingy, x
  • .forward(): volá ostatní metody a provede vstupní embeddingy přes každý krok zpracování

torch.nn byl importován jako nn, torch.nn.functional je dostupný jako F a torch je také k dispozici.

Pokyny 1/4

undefined XP
    1
    2
    3
    4
  • Rozděl vstupní embeddingy x mezi attention hlavy tím, že změníš jejich tvar na (batch_size, seq_length, self.num_heads, self.head_dim).