Přidání metod do třídy MultiHeadAttention

V tomto cvičení dokončíš třídu MultiHeadAttention od základu tím, že definuješ čtyři metody:

.split_heads(): rozdělí a transformuje vstupní embeddingy mezi jednotlivé attention hlavy
.compute_attention(): vypočítá škálované dot-product attention váhy vynásobené maticí hodnot
.combine_heads(): transformuje attention váhy zpět do stejného tvaru jako vstupní embeddingy, x
.forward(): volá ostatní metody a provede vstupní embeddingy přes každý krok zpracování

torch.nn byl importován jako nn, torch.nn.functional je dostupný jako F a torch je také k dispozici.

Rozděl vstupní embeddingy x mezi attention hlavy tím, že změníš jejich tvar na (batch_size, seq_length, self.num_heads, self.head_dim).