1. 학습
  2. /
  3. 강의
  4. /
  5. PyTorch による効率的な AI モデルトレーニング

Connected

연습 문제

AutoTokenizer によるテキストの前処理

農家が現場で直面する問題について質問できる、精密農業アプリケーションを構築しています。農家が実際に抱えるよくある質問と回答のデータセットを活用します。このデータセットには以下のフィールドが含まれています。

  • question:農業に関するよくある質問
  • answers:農業に関する質問への回答

分散学習の第一ステップとして、このテキストデータセットの前処理を行いましょう。

以下のデータはあらかじめ読み込まれています。

  • dataset:農業に関する質問と回答のサンプルデータセット
  • AutoTokenizer:transformers からインポート済み

지침

100 XP
  • 事前学習済みの tokenizer を読み込みましょう。
  • tokenizer を使って example["question"] をトークン化しましょう。
  • encode() 関数を dataset に適用しましょう。