1. Uczyć się
  2. /
  3. Courses
  4. /
  5. 人間のフィードバックによる強化学習(RLHF)

Connected

Exercise

RLHF を使ったテキスト生成

この演習では、RLHF で事前学習されたモデル lvwerra/gpt2-imdb-pos-v2 を使います。Hugging Face のパイプラインを組み立てる手順を復習し、RLHF 学習済みモデルのユースケースである映画レビューの生成を試します。

pipeline, AutoModelForCausalLM, and AutoTokenizer オブジェクトは transformers から事前にインポート済みです。tokenizer もすでに読み込まれています。

Instrukcje

100 XP
  • モデル名に、RLHF で事前学習された lvwerra/gpt2-imdb-pos-v2 を指定します。
  • pipeline 関数を使って text-generation パイプラインを作成します。
  • 作成したテキスト生成パイプラインで、与えられたレビュー文の続きを生成します。