1. 学ぶ
  2. /
  3. コース
  4. /
  5. PyTorchで学ぶTransformerモデル

Connected

演習

自己注意のためのマスクを設計する

デコーダがトークンを予測できるように学習するには、入力系列をモデル化する際に将来のトークンをマスクすることが重要です。ここでは、True と False からなる三角行列のマスクを作成します。将来のトークンを除外するため、上三角部分を False にします。

指示

100 XP
  • デコーダ本体のアテンション機構で将来のトークンをマスクするためのブール行列 tgt_mark を作成してください。