Çok başlı dikkat mekanizmasını uygulama
Kendi MultiHeadAttention sınıfını yazmaya başlamadan önce, bu sınıfı kullanarak sorgu (query), anahtar (key) ve değer (value) matrislerini nasıl dönüştürdüğünü deneyeceksin. Bu matrislerin, girdi gömmelerini öğrenilen ağırlıklara sahip doğrusal dönüşümlerle yansıtarak üretildiğini hatırla.
query, key ve value matrisleri senin için zaten oluşturuldu ve MultiHeadAttention tanımlandı.
Bu egzersiz, kursun bir parçasıdır
PyTorch ile Transformer Modelleri
Egzersiz talimatları
- Sekiz dikkat başlığı ve boyutu
512olan girdi gömmeleri için dikkat parametrelerini tanımla. - Tanımladığın parametreleri kullanarak
MultiHeadAttentionsınıfının bir örneğini oluştur. query,keyvevaluematrislerinimultihead_attnmekanizmasından geçir.
Uygulamalı etkileşimli egzersiz
Bu egzersizi bu örnek kodu tamamlayarak deneyin.
# Define attention parameters
d_model = ____
num_heads = ____
# Instantiate a MultiHeadAttention instance
multihead_attn = ____
# Pass the query, key, and value matrices through the mechanism
output = ____
print(output.shape)