MulaiMulai sekarang secara gratis

Evaluasi teks yang dihasilkan menggunakan ROUGE

Anda disediakan 10 sampel dari himpunan data tanya jawab (Softage-AI/sft-conversational_dataset).

Anda telah menggunakan TinyLlama-1.1B untuk menghasilkan jawaban atas sampel-sampel ini, dan tugas Anda adalah mengevaluasi kualitas hasil yang dihasilkan terhadap kebenaran dasar (ground truth).

Jawaban yang dihasilkan oleh model ini disediakan dalam test_answers dan kebenaran dasarnya dalam reference_answers. Gunakan metrik evaluasi ROUGE untuk menilai kualitas keluaran model.

Latihan ini adalah bagian dari kursus

Fine-Tuning dengan Llama 3

Lihat Kursus

Petunjuk latihan

  • Impor kelas evaluasi dan metrik (metrik ROUGE).
  • Buat instans kelas evaluasi dan muat metrik ROUGE.
  • Jalankan objek evaluator dengan reference_answers dan test_answers yang diberikan untuk menghitung skor ROUGE.
  • Simpan, dalam final_score, skor dari hasil yang memeriksa tumpang tindih pasangan kata antara jawaban acuan dan jawaban yang dihasilkan.

Latihan interaktif praktis

Cobalah latihan ini dengan menyelesaikan kode contoh berikut.

# Import the evaluation library from Hugging Face
import ____ 

# Instantiate your evaluate library and load the ROUGE metric
rouge_evaluator = ____.load(____) 

# Fill in the method, and place your reference answers and test answers
results = rouge_evaluator.____

# Extract the ROUGE1 score from the results dictionary
final_score = results[____]
print(final_score)
Edit dan Jalankan Kode