1. 学ぶ
  2. /
  3. コース
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

演習

RLHF로 텍스트 생성

이 연습 문제에서는 RLHF로 사전 학습된 lvwerra/gpt2-imdb-pos-v2 모델을 사용해 보겠습니다. 이 문제를 통해 Hugging Face 파이프라인을 구성하는 방법을 복습하고, RLHF로 학습한 모델의 활용 사례인 영화 리뷰 생성 작업을 시험해 볼 거예요.

pipeline, AutoModelForCausalLM, and AutoTokenizer 객체는 이미 transformers에서 임포트되어 있습니다. 또한 tokenizer도 미리 로드되어 있어요

指示

100 XP
  • 모델 이름을 RLHF로 사전 학습된 lvwerra/gpt2-imdb-pos-v2로 설정하세요.
  • pipeline 함수를 사용해 text-generation 파이프라인을 만드세요.
  • 생성 파이프라인을 사용하여 제공된 리뷰의 이어지는 내용을 생성하세요.