1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Reinforcement Learning from Human Feedback (RLHF)

Connected

Bài tập

Sinh văn bản với RLHF

Trong bài tập này, bạn sẽ làm việc với một mô hình được huấn luyện sẵn bằng RLHF có tên lvwerra/gpt2-imdb-pos-v2. Đây là cơ hội để bạn ôn lại cách xây dựng một pipeline của Hugging Face và dùng nó để kiểm thử một trường hợp sử dụng của các mô hình được huấn luyện bằng RLHF: sinh bài đánh giá phim.

Các đối tượng pipeline, AutoModelForCausalLM, and AutoTokenizer đã được nhập sẵn từ transformers. tokenizer cũng đã được nạp sẵn

Hướng dẫn

100 XP
  • Đặt tên mô hình là lvwerra/gpt2-imdb-pos-v2, mô hình được huấn luyện trước bằng RLHF.
  • Dùng hàm pipeline để tạo một pipeline text-generation.
  • Dùng pipeline sinh văn bản để tạo phần tiếp nối cho bài đánh giá đã cho.