Quiz 2 - Question 2
Consider a transformer model that uses 8 attention heads. If the embedding dimension is 512, what is the usual dimension of the output vector of each head?
Latihan ini adalah bagian dari kursus
Google DeepMind: Discover The Transformer Architecture
Latihan interaktif praktis
Ubah teori menjadi tindakan dengan salah satu latihan interaktif kami.
Mulai berolahraga