Aan de slagGa gratis aan de slag

Quiz 2 - Question 2

Consider a transformer model that uses 8 attention heads. If the embedding dimension is 512, what is the usual dimension of the output vector of each head?

Deze oefening maakt deel uit van de cursus

Google DeepMind: Discover The Transformer Architecture

Cursus bekijken

Praktische interactieve oefening

Zet theorie om in actie met een van onze interactieve oefeningen.

Begin met trainen