Décomposer le Transformer
L’architecture Transformer a révolutionné la modélisation de séquences en intégrant de nombreuses avancées du deep learning, comme l’encodage positionnel, les mécanismes d’attention, et bien plus encore.
Quel composant de l’architecture Transformer est responsable de la capture des informations sur la position de chaque jeton dans la séquence ?
Cet exercice fait partie du cours
Modèles Transformer avec PyTorch
Exercice interactif pratique
Passez de la théorie à la pratique avec l’un de nos exercices interactifs
Commencer l’exercice