RLHF を使ったテキスト生成

この演習では、RLHF で事前学習されたモデル lvwerra/gpt2-imdb-pos-v2 を使います。Hugging Face のパイプラインを組み立てる手順を復習し、RLHF 学習済みモデルのユースケースである映画レビューの生成を試します。

pipeline, AutoModelForCausalLM, and AutoTokenizer オブジェクトは transformers から事前にインポート済みです。tokenizer もすでに読み込まれています。