Merancang mask untuk self-attention
Agar decoder dapat belajar memprediksi token, penting untuk melakukan masking pada token di masa depan saat memodelkan urutan masukan. Anda akan membangun sebuah mask berupa matriks segitiga berisi nilai True dan False, dengan nilai False pada diagonal atas untuk mengecualikan token di masa depan.
Latihan ini merupakan bagian dari kursus
Model Transformer dengan PyTorch
Instruksi latihan
- Buat matriks Boolean,
tgt_mark, untuk memask token masa depan dalam mekanisme attention pada bagian tubuh decoder.
Latihan interaktif langsung praktik
Cobalah latihan ini dengan melengkapi kode contoh ini.
seq_length= 3
# Create a Boolean matrix to mask future tokens
tgt_mask = (1 - torch.____(
torch.____(1, ____, ____), diagonal=____)
).____()
print(tgt_mask)