RLHF로 텍스트 생성

이 연습 문제에서는 RLHF로 사전 학습된 lvwerra/gpt2-imdb-pos-v2 모델을 사용해 보겠습니다. 이 문제를 통해 Hugging Face 파이프라인을 구성하는 방법을 복습하고, RLHF로 학습한 모델의 활용 사례인 영화 리뷰 생성 작업을 시험해 볼 거예요.

pipeline, AutoModelForCausalLM, and AutoTokenizer 객체는 이미 transformers에서 임포트되어 있습니다. 또한 tokenizer도 미리 로드되어 있어요