Décomposer le Transformer
L’architecture Transformer a révolutionné la modélisation de séquences en intégrant de nombreuses avancées du deep learning, comme l’encodage positionnel, les mécanismes d’attention, et bien plus encore.
Quel composant de l’architecture Transformer est responsable de la capture des informations sur la position de chaque jeton dans la séquence ?
Cet exercice fait partie du cours
<cours>Modèles Transformer avec PyTorch</cours>Exercice interactif pratique
Transformez la théorie en action avec l’un de nos exercices interactifs
Commencer l’exercice