LoslegenKostenlos starten

Quiz 2 - Question 2

Consider a transformer model that uses 8 attention heads. If the embedding dimension is 512, what is the usual dimension of the output vector of each head?

Diese Übung ist Teil des Kurses

<Kurs>Google DeepMind: Discover The Transformer Architecture</Kurs>
Kurs ansehen

Interaktive praktische Übung

Verwandle Theorie mit einer unserer interaktiven Übungen in die Praxis

Übung starten