ComeçarComece de graça

Quiz 2 - Question 2

Consider a transformer model that uses 8 attention heads. If the embedding dimension is 512, what is the usual dimension of the output vector of each head?

Este exercício faz parte do curso

Google DeepMind: Discover The Transformer Architecture

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício