Evaluasi teks yang dihasilkan menggunakan ROUGE
Anda disediakan 10 sampel dari himpunan data tanya jawab (Softage-AI/sft-conversational_dataset).
Anda telah menggunakan TinyLlama-1.1B untuk menghasilkan jawaban atas sampel-sampel ini, dan tugas Anda adalah mengevaluasi kualitas hasil yang dihasilkan terhadap kebenaran dasar (ground truth).
Jawaban yang dihasilkan oleh model ini disediakan dalam test_answers dan kebenaran dasarnya dalam reference_answers. Gunakan metrik evaluasi ROUGE untuk menilai kualitas keluaran model.
Latihan ini adalah bagian dari kursus
Fine-Tuning dengan Llama 3
Petunjuk latihan
- Impor kelas evaluasi dan metrik (metrik ROUGE).
- Buat instans kelas evaluasi dan muat metrik ROUGE.
- Jalankan objek evaluator dengan
reference_answersdantest_answersyang diberikan untuk menghitung skor ROUGE. - Simpan, dalam
final_score, skor dari hasil yang memeriksa tumpang tindih pasangan kata antara jawaban acuan dan jawaban yang dihasilkan.
Latihan interaktif praktis
Cobalah latihan ini dengan menyelesaikan kode contoh berikut.
# Import the evaluation library from Hugging Face
import ____
# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____)
# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____
# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)