cvičení

Začínáme s třídou MultiHeadAttention

Teď, když máš hotové třídy pro vytváření token embeddings a pozičních embeddings, je čas definovat třídu pro výpočet multi-head attention. Začni tím, že nastavíš parametry potřebné pro výpočet attention a lineární vrstvy, které transformují vstupní embeddings na matice query, key a value — plus jednu vrstvu pro zpětnou projekci kombinovaných attention vah do embeddings.

torch.nn je importován jako nn.

Pokyny

100 XP

Vypočítej dimenzi embeddings, kterou bude zpracovávat každý attention head — head_dim.
Definuj tři vstupní vrstvy (pro query, key a value) a jednu výstupní vrstvu; ze vstupních vrstev odstraň parametr bias.

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}cvičení

Pokyny

cvičení