Scomporre il Transformer
L'architettura Transformer ha rivoluzionato il modeling di sequenze, integrando molti progressi nel deep learning, come il positional encoding, i meccanismi di attention e molto altro.
Quale componente dell'architettura Transformer è responsabile di catturare le informazioni sulla posizione di ogni token nella sequenza?
Questo esercizio fa parte del corso
Modelli Transformer con PyTorch
esercizio interattivo pratico
Trasforma la teoria in pratica con uno dei nostri esercizi interattivi
Inizia esercizio