1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

Bài tập

テキストデータセットをトークナイズする

旅行サイト向けの市場調査に取り組んでおり、ホテルのレビューを分類するモデルをファインチューニングするために既存のデータセットを使いたいと考えています。ここでは datasets ライブラリを使用します。

transformers から AutoTokenizer クラスが、datasets から load_dataset() がすでにインポートされています。

Hướng dẫn

100 XP
  • テキストを同じサイズのバッチで処理できるよう、tokenizer にパディングを追加します。
  • 事前学習済みの GPT 用 tokenizer と定義済みの関数を使ってテキストデータをトークナイズします。