CommencerCommencez gratuitement

Quiz 2 - Question 2

Consider a transformer model that uses 8 attention heads. If the embedding dimension is 512, what is the usual dimension of the output vector of each head?

Cet exercice fait partie du cours

<cours>Google DeepMind: Discover The Transformer Architecture</cours>
Voir le cours

Exercice interactif pratique

Transformez la théorie en action avec l’un de nos exercices interactifs

Commencer l’exercice