1. 学ぶ
  2. /
  3. コース
  4. /
  5. PyTorchで学ぶTransformerモデル

Connected

演習

デコーダーレイヤー

エンコーダートランスフォーマーと同様に、デコーダートランスフォーマーもマルチヘッドアテンションとフィードフォワードサブレイヤーを用いた複数のレイヤーで構成されます。これらのコンポーネントを組み合わせて、DecoderLayer クラスを作成してみましょう。

MultiHeadAttention と FeedForwardSubLayer クラス、そして作成済みの tgt_mask を利用できます。

指示

100 XP

__init__ メソッドで定義したレイヤーを通して入力埋め込みを処理するように、forward() メソッドを完成させてください。

  • 提供された tgt_mask を用い、入力埋め込み x を query・key・value 行列として、アテンション計算を実行します。
  • dropout と1つ目のレイヤー正規化 norm1 を適用します。
  • フィードフォワードサブレイヤー ff_sublayer を通過させます。
  • dropout と2つ目のレイヤー正規化 norm2 を適用します。