1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Fine-Tuning với Llama 3

Connected

Bài tập

Đánh giá văn bản sinh ra bằng ROUGE

Bạn được cung cấp 10 mẫu từ một bộ dữ liệu hỏi-đáp (Softage-AI/sft-conversational_dataset).

Bạn đã dùng TinyLlama-1.1B để tạo câu trả lời cho các mẫu này, và nhiệm vụ của bạn là đánh giá chất lượng kết quả sinh ra so với đáp án chuẩn.

Các câu trả lời do mô hình tạo ra nằm trong test_answers và đáp án chuẩn nằm trong reference_answers. Hãy dùng các chỉ số đánh giá ROUGE để đánh giá chất lượng phần sinh của mô hình.

Hướng dẫn

100 XP
  • Import lớp đánh giá và metric (metric ROUGE).
  • Khởi tạo lớp đánh giá và tải metric ROUGE.
  • Chạy instance evaluator với reference_answers và test_answers đã cho để tính điểm ROUGE.
  • Lưu vào final_score điểm từ kết quả dùng để kiểm tra mức trùng lặp các cặp từ giữa câu trả lời chuẩn và câu trả lời được sinh ra.