Обучение

/

Курса

/

人間のフィードバックによる強化学習（RLHF）

Connected

упражнение

テキストデータセットをトークナイズする

旅行サイト向けの市場調査に取り組んでおり、ホテルのレビューを分類するモデルをファインチューニングするために既存のデータセットを使いたいと考えています。ここでは datasets ライブラリを使用します。

transformers から AutoTokenizer クラスが、datasets から load_dataset() がすでにインポートされています。

Инструкции

100 XP

テキストを同じサイズのバッチで処理できるよう、tokenizer にパディングを追加します。
事前学習済みの GPT 用 tokenizer と定義済みの関数を使ってテキストデータをトークナイズします。