Inizia subitoInizia gratis

Quiz 2 - Question 2

Consider a transformer model that uses 8 attention heads. If the embedding dimension is 512, what is the usual dimension of the output vector of each head?

Questo esercizio fa parte del corso

Google DeepMind: Discover The Transformer Architecture

Visualizza corso

esercizio interattivo pratico

Trasforma la teoria in pratica con uno dei nostri esercizi interattivi

Inizia esercizio