Merancang mask untuk self-attention
Agar decoder dapat belajar memprediksi token, penting untuk melakukan masking pada token di masa depan saat memodelkan urutan masukan. Anda akan membangun sebuah mask berupa matriks segitiga berisi nilai True dan False, dengan nilai False pada diagonal atas untuk mengecualikan token di masa depan.
Latihan ini adalah bagian dari kursus
Model Transformer dengan PyTorch
Petunjuk latihan
- Buat matriks Boolean,
tgt_mark, untuk memask token masa depan dalam mekanisme attention pada bagian tubuh decoder.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)